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第 一 章 ZeroMQ X9 


拯救 世界 


如 何 解释 ZMQ ? 有 些 人 会 先 说 一 堆 ZMQ 的 好 : 它 是 一 套用 于 快速 构建 的 套 接 字 组 
件 ; 它 的 信箱 系统 有 超 强 的 路 由 能 力 ; 它 太 快 了 ! 而 有 些 人 则 喜欢 分 享 他 们 被 ZMQ 
点 悟 的 时 刻 ， 那 些 被 灵感 击 中 的 瞬间 : 所 有 的 事情 突然 变 得 简单 明了 ， 让 人 大 开眼 
界 。 另 一 些 人 则 会 拿 ZMQ 同 其 他 产品 做 个 比较 : 它 更 小 ， 更 简单 ， 但 却 让 人 觉得 如 
此 熟悉 。 对 于 我 个 人 而 言 ， 我 则 更 倾向 于 和 别人 分 享 ZMQ 的 诞生 史 ， 相 信 会 和 各 位 
读者 有 所 共鸣 。 


编程 是 一 门 科 学 ， 但 往往 会 乔装 成 一 门 艺 术 。 我 们 从 不 去 了 解 软件 最 底层 的 机 理 ， 
或 者 说 根本 没有 人 在 乎 这 些 。 软 件 并 不 只 是 算法 、 数 据 结构 、 编 程 语言 、 或 者 抽象 
云云 ， 这 些 不 过 是 一 些 工 具 而 已 ， 被 我 们 创造 、 使 用 、 最 后 抛弃 。 软 件 站 正 的 本 
质 ， 其 实 是 人 的 本 质 。 


举例 来 说 ， 当 我 们 遇 到 一 个 高 度 复杂 的 问题 时 ， 我 们 会 群策群力 ， 分 工 合作 ， 将 问 
题 拆 分 为 若干 个 部 分 ， 一 起 解决 。 这 里 就 体现 了 编程 的 科学 : 创建 一 组 小 型 的 构建 
模块 ， 让 人 们 易于 理解 和 使 用 ， 那 么 大 家 就 会 一 起 用 它 来 解决 问题 。 


我 们 生活 在 一 个 普遍 联系 的 世界 里 ， 需要 现代 的 编程 软件 为 我 们 做 指引 。 所 以 ， 未 
来 我 们 所 需要 的 用 于 处 理 大 规模 计算 的 构建 模块 ， 必 须 是 普遍 联系 uM 而 且 能 够 并 
行 运作 。 e AR 时 ， > 程序 代码 不 能 ZN A Xi 已 2 它们 需要 互相 交流 d 得 足够 健谈 S 
程序 代码 需要 像 人 脑 一 样 ， 数 以 兆 计 的 神经 元 高 速 地 传输 信号 ， 
制 的 环境 下 ， 没有 单 ， 点 故障 的 环境 下 ， 解 决 问题 。 这 一 点 其 实 并 不 意外 ， 因 为 就 当 
今 的 网 络 来 讲 ， 每 个 节点 其 实 就 像 是 连接 了 一 个 人 脑 一 样 。 


如 果 你 曾 和 线程 、 协 议 、 或 网 络 打 过 交道 ， 你 会 觉得 我 上 面 的 话 像 是 天 方 夜 谭 。 
为 在 实际 应 用 过 程 中 ， 只 是 连接 几 个 程序 或 网 络 就 已 经 非常 困难 和 麻烦 了 。 数 以 兆 
计 的 节点 ? 那 真 是 无 法 想象 的 。 现 今 只 有 资金 雄厚 的 企业 才能 负担 得 起 这 种 软件 和 
服务 o 
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件 危 机 ， 弗 莱 德 :布鲁克 斯 曾 说 过 ， 这 个 世上 没有 银 弹 。 后 来 ， 免 费 和 开源 解决 了 这 
次 软件 危机 ， 让 我 们 能 够 高 效 地 分 享 知识 。 如 今 ， 我 们 又 面临 一 次 新 的 软件 危机 ， 
只 不 过 我 们 谈论 得 不 多 。 只 有 那些 大 型 的 、 富 足 的 企业 才 有 财力 建立 高 度 联系 的 应 
用 程序 * 屠 时 有 去 的 站 在， 但 是 私有 的 。 o 我 们 的 数据 和 知识 正在 从 我 们 的 个 人 电 

脑 中 消失 ， 流 入 云端 ， 无 法 获得 或 与 其 竞争 。 是 谁 坐 拥 我 们 的 社交 网 络 ? a 
次 巨型 主机 的 革命 。 


我 们 暂且 不 谈 其 中 的 政治 因素 ， 光 那些 就 可 以 另外 出 本 书 了 。 目 前 的 现状 是 ， 虽 然 
互联 网 能 够 让 于 万 个 程序 相连 ， 但 我 们 之 中 的 大 多 数 却 无 法 做 到 这 些 。 这 样 一 来 ， 
那些 真正 有 趣 的 大 型 问题 (如 人 健康、 教育 、 经 济 、 交 通 等 领域 ) ， 仍 然 无 法 解决 。 
我 们 没有 能 力 将 代码 连接 起 来 ， 也 就 不 能 像 大 脑 中 的 神经 元 一 样 处 理 那些 大 规模 的 


问题 。 


已 经 有 人 尝试 用 各 种 方法 来 连接 应 用 程序 ， 如 数 以 千 计 的 IETF 规 范 ， Vip 范 解决 
一 个 特定 问题 。 对 于 开发 人 员 来 说 ，HTTP 协 议 是 比较 简单 和 多 用 的 ， 但 这 也 往往 
让 问题 变 得 更 糟 ， 因 为 它 鼓励 人 们 形成 一 种 重 服 务 端 、 轻 客户 端的 思想 。 


所 以 迄今 为 止 人 们 还 在 使 用 原始 的 TCP/UDP 协 议 、 私 有 协议 、HTTP 协 议 、 网 络 套 
接 字 等 形式 连接 应 用 程序 。 这 种 做 法 依 昌 让 人 痛苦， 速度 慢 又 不 易 扩 展 ， 需 要 集中 
化 管理 。 而 分 布 式 的 P2P 协 议 又 仅仅 适用 于 娱乐 ， 而 非 盖 正 的 应 用 。 有 谁 会 使 用 
Skype 或 者 Bittorrent 来 交换 数据 呢 ? 


这 就 让 我 们 回归 到 编程 科学 的 问题 上 来 。 想 要 拯救 这 个 我 们 需要 做 两 件 事 
情 : 一 ， 如 何在 任何 地 点 连接 任何 两 个 应 用 程序 ; 二 、 将 这 个 解决 方案 用 最 为 简单 
的 方式 包装 起 来 ， 供 程序 员 使 用 。 


也 许 这 听 起 来 太 简单 了 ， 但 事实 确实 如 此 。 
ZMQ 简 介 
ZMQ (GMQ、ZeroMQ, 0MQ ) 看 起 来 像 是 一 套 谨 入 式 的 网 络 链接 库 ， 但 工作 起 来 


更 像 是 一 个 并 发 式 的 框架 。 它 提供 的 套 接 字 可 以 在 多 种 协议 中 传输 消息 ， 如 线程 
间 、 进 程 间 、TCP、 广 播 等 。 你 可 以 使 用 套 接 字 构 建 多 对 多 的 连接 模式 ， 如 扇 出 、 


发 布 -订阅 、 任 务 分 发 、 请 求 -应 答 等 。ZMQ 的 快速 足以 胜任 集群 应 用 产品 。 它 的 异 
步 JO 机 制 让 你 能 够 构建 多 核 应 用 程序 ， 完 成 异步 消息 处 理 任 务 。ZMQ 有 着 多 语言 
支持 ， 并 能 在 几乎 所 有 的 操作 系统 上 运行 。ZMQ 是 iMatix 公 司 的 产品 ， 以 LGPL 开 源 
协议 发 布 。 


需要 具备 的 知识 
e 使 用 最 新 的 ZMQ 稳 定 版 本 ; 
e 使 用 Linux 系 统 或 其 他 相似 的 操作 系统 ; 
e 能 够 阅读 C 语 言 代码 ， 这 是 本 指南 示例 程序 的 默认 语言 ; 
e 当 我 们 书写 诸如 PUSH 或 SUBSCRIBE 等 常量 时 ， 你 能 够 找到 相应 语言 的 实 


现 ， 如 ZMQ_PUSH、ZMQ_SUBSCRIBE ° 


获取 示例 
本 指南 的 所 有 示例 都 存放 于 github 仓 库 中 ， 最 简单 的 获取 方式 是 运行 以 下 代码 : 


git clone git://github.com/imatix/zguide.git 


浏览 examples 目 录 ， 你 可 以 看 到 多 种 语言 的 实现 。 如 果 其 中 缺少 了 某 种 你 正在 使 用 
的 语言 ， 我 们 很 希望 你 可 以 提交 一 份 补充 。 这 也 是 本 指南 实用 的 原因 ， 要 感谢 所 有 
做 出 过 贡献 的 人 。 


所 有 的 示例 代码 都 以 MIT/X11 协 议 发 布 ， 若 在 源 代码 中 有 其 他 限定 的 除外 。 

提问 -回答 

让 我 们 从 简单 的 代码 开始 ， 一 段 传统 的 Hello World 程 序 。 我 们 会 创建 一 个 客户 端 和 
一 个 服务 端 ， 客 户 端 发 送 Hello 给 服务 端 ， 服 务 端 返回 World。 下 文 是 C 语 言 编写 的 
服务 端 ， 它 在 5555 端 口 打 开 一 个 ZMQ 套 接 字 ， 等 待 请 求 ， 收 到 后 应 答 World 。 


hwserver.c: Hello World server 


7 

// Hello world 服务 端 

// ” 绑 定 一 个 REP 套 接 字 至 tcp://*:5555 
// ”从 客户 端 接 收 Hel10， 并 应 答 World 
// 

#include <zmq.h> 

#include «stdio.h» 

#include <unistd.h> 

#include <string.h> 


int main (void) 


( 


void *context - zmq init (1); 


// 与 客户 端 通信 的 套 接 字 
void *responder = zmq socket (context, ZMQ REP); 
zmq bind (responder, "tcp://*:5555"); 


while (1) { 
// 等 待 客 户 端 请 求 
zmq msg t request; 
zmq msg init (&request); 
zmq recv (responder, &request, 9); 
printf (" 收 到 HelloNn"); 
zmq msg close (&request); 


// ”做 些 “ 处 理 ” 
sleep (1); 


// 返回 应 答 
zmq msg t reply; 
zmq msg init size (&reply, 5); 
memcpy (zmq msg data (&reply), "World", 5); 
zmq send (responder, &reply, 0); 
zmq msg close (&reply); 
J 
// ”程序 不 会 运行 到 这 里 ， 以 下 只 是 演示 我 们 应 该 如 何 结束 
zmq close (responder); 
zmq term (context); 
return 0; 








Figure 1 一 RequestReply 

使 用 REQ-REP 套 接 字 发 送 和 接受 消息 是 需要 遵循 一 定 规律 的 。 客 户 端 首先 使 用 
zmq_send() 发 送 消 息 ， 再 用 zmq_recv() 接 收 ， 如 此 循环 。 如 果 打 乱 了 这 个 顺序 (如 
连续 发 送 两 次 ) 则 会 报错 。 类 似 地 ， 服 务 端 必须 先进 行 接收 ， 后 进行 发 送 。 

ZMQ 使 用 C 语 言 作 为 它 参 考 手 册 的 语言 ， 本 指南 也 以 它 作为 示例 程序 的 语言 。 如 果 
你 正在 阅读 本 指南 的 在 线 版 本 ， 你 可 以 看 到 示例 代码 的 下 方 有 其 他 语言 的 实现 。 如 
以 下 是 C++ 语言 : 


hwservercpp: Hello World server 


fi 

// Hello World 服务 端 C++ 语言 版 
// 98|€*—^REPEXE Y £tcp://*:5555 
// 从 客户 端 接收 Hel10， 并 应 答 World 
// 

#include <zmq.hpp> 

#include <string> 

#include <iostream> 

#include <unistd.h> 


int main () 4 
// 准备 上 下 文 和 套 接 字 
zmq::context t context (1); 
zmq::socket t socket (context, ZMQ REP); 
socket.bind ("tcp://*:5555"); 


while (true) { 
zmq::message t request; 


// 等 待 客户 端 请 求 
socket.recv (&request); 
std::cout << " 收 到 Hello" << std::endl; 


// 做 一 些 4 处 理 7 
sleep (1); 


// 应 答 Wor1ld 
zmq::message t reply (5); 
memcpy ((void *) reply.data (), "World", 5); 
socket.send (reply); 
} 


return 0; 


可 以 看 到 C 语 言 和 C++ 语言 的 API 代 码 差不多 ， 而 在 PHP 这 样 的 语言 中 ， 代 码 就 会 更 
为 简洁 : 


hwserverphp: Hello World server 


* Hello World 服务 端 
* 绑 定 REP 套 接 字 至 tcp://*:5555 
* 从 客户 端 接收 HelLl10， 并 应 答 Wor1d 
* @author Ian Barber «ian(dot)barber(at)gmail(dot)com» 
cri 
$context - new ZMQContext(1); 
// 与 客户 端 通信 的 套 接 字 
$responder = new ZMQSocket($context, ZMQ::SOCKET REP); 
$responder-»5bind("tcp://*:5555"); 
while(true) 1f 
// 等 待 客 户 端 请 求 
$request = $responder-»recv(); 
printf ("Received request: [%s]\n", $request); 


U 3n RETEN 
sleep (1); 


// 应 答 World 
$responder-»send("World"); 


下 面 是 客户 端的 代码 : 


hwclient: Hello World client in C 


— € ZeroMQ X 4l 


"d 

// Mello world 客户 端 

// 连接 REQ 套 接 字 至 tcp://localhost:5555 
// 发 送 HelL1o 给 服务 端 ， 并 接收 Wor1d 

// 

Zinclude «zmq.h» 

Zinclude <string.h> 

Zinclude <stdio.h> 

Zinclude <unistd.h> 


int main (void) 


{ 
void *context = zmq_init (1); 
// 连接 至 服务 端的 套 接 字 
printf ("正在 连接 至 hello world/R 4 39 ...Nn"); 
void *requester = zmq socket (context, ZMQ REQ); 
zmq connect (requester, "tcp://localhost:5555"); 
int request nbr; 
for (request nbr = 0; request nbr !- 10; request nbr++) ( 
zmq msg t request; 
zmq msg init size (&request, 5); 
memcpy (zmq msg data (&request), "Hello", 5); 
printf ("正在 发 送 Hello 9*d...Nn", request nbr); 
zmq send (requester, &request, 9); 
zmq msg close (&request); 
zmq msg t reply; 
zmq msg init (&reply); 
zmq recv (requester, &reply, 0); 
printf ("接收 到 world 9*«dNn", request nbr); 
zmq msg close (&reply); 
} 
zmq close (requester); 
zmq term (context); 
rae teuer 
} 


这 看 起 来 是 否 太 简单 了 ?ZMQ 就 是 这 样 一 个 东西 ， 你 往 里 加 点 儿 料 就 能 制作 出 一 枚 
无 穷 能 量 的 原子 弹 ， 用 它 来 拯救 世界 吧 | 
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Figure2 一 A terrible accident... 
理论 上 你 可 以 连接 千 万 个 客户 端 到 这 个 服务 端 上 ， 同 时 连接 都 没 问 题 ， 程 序 仍 会 运 
作 得 很 好 。 你 可 以 尝试 一 下 先 打开 客户 端 ， 再 打开 服务 端 ， 可 以 看 到 程序 仍然 会 正 
常 工作 ， 想 想 这 意味 着 什么 。 
让 我 简单 介绍 一 下 这 两 段 程序 到 底 做 了 什么 。 首 先 ， 他 们 创建 了 一 个 ZMQ 上 下 文 ， 
然后 是 一 个 套 接 字 。 不 要 被 这 些 陌生 的 名 词 吓 到 ， 后 面 我 们 都 会 讲 到 。 服 务 端 将 
REP 套 接 字 绑 定 到 5555 端 口上 ， 并 开始 等 待 请 求 ， 发 出 应 答 ， 如 此 循环 。 客 户 端 则 
是 发 送 请 求 并 等 待 服务 端的 应 答 。 
这 些 代码 背后 其 实 发 生 了 很 多 很 多 事情 ， 但 是 程序 员 完 全 不 必 理 会 这 些 ， 只 要 知道 
这 些 代码 短小 精 悍 ， 极 少 出 错 ， 耐 高 压 。 这 种 通信 模式 我 们 称 之 为 请 求 -应 符 模 式 ， 
是 ZMQ 最 直接 的 一 种 应 用 。 你 可 以 拿 它 和 RPC 及 经 典 的 C/S 模 型 做 类 比 。 


关于 字符 囊 

ZMQ 不 会 关心 发 送 消 息 的 内 容 ， 只 要 知道 它 所 包含 的 字 节 数 。 所 以 ， 程 序 员 需要 做 
一 些 工作 ， 保 证 对 方 节点 能 够 正确 读 取 这 些 消息 。 如 何 将 一 个 对 象 或 复杂 数据 类 型 
转换 成 ZMQ 可 以 发 送 的 消息 ， 这 有 类 似 Protocol Buffers 的 序列 化 软件 可 以 做 到 。 但 
对 于 字符 串 ， 你 也 是 需要 有 所 注意 的 。 


在 C 语 言 中 ， 字 符 串 都 以 一 个 空 字符 结尾 ， 你 可 以 像 这 样 发 送 一 个 完整 的 字符 串 : 


zmq msg init data (&request, "Hello", 6, NULL, NULL); 


但 是 ， 如 果 你 用 其 他 语言 发 送 这 个 字符 串 ， 很 可 能 不 会 包含 这 个 空 字 节 ， 如 你 使 用 
Python X iX : 


socket.send ("Hello") 


`, 


实际 发 送 的 消息 是 : 





Figure3 — A OMOQ string 


如 果 你 从 C 语 言 中 读 取 该 消息 ， 你 会 读 到 一 个 类 似 于 字符 囊 的 内 容 ， 其 至 它 可 能 就 
是 一 个 字符 囊 (第 六 位 在 内 存 中 正好 是 一 个 空 字符 ) ， 但 是 这 并 不 合适 。 这 样 一 
来 ， 客 户 端 和 服务 端 对 字符 串 的 定义 就 不 统一 了 ， 你 会 得 到 一 些 奇 怪 的 结果 。 


当 你 用 C 语 言 从 ZMQ 中 获取 字符 串 ， 你 不 能 够 相信 该 字符 串 有 一 个 正确 的 结尾 。 
此 ， 当 你 在 接受 字符 串 时 ， 应 该 建立 多 一 个 字 节 的 缓冲 区 ， 将 字符 串 放 进去 ， 并 添 
加 结尾 。 


所 以 ， 让 我 们 做 如 下 假设 : ZMQ 的 字符 串 是 有 长 度 的 ， 且 传送 时 不 加 结束 符 。 在 最 
简单 的 情况 下 ，ZMQ 字 符 串 和 ZMQ 消 息 中 的 一 帧 是 等 价 的 ， 就 如 上 图 所 展现 的 ， 
由 一 个 长 度 属性 和 一 串 字 节 表 示 。 


下 面 这 个 功能 函数 会 帮助 我 们 在 C 语 言 中 正确 的 接受 字符 串 消息 : 


// 从 ZMQ 套 接 字 中 接收 字符 串 ， 并 转换 为 C 语 言 的 字符 串 
static char * 
S.recv (void *socket) { 
zmq msg t message; 
zmq msg init (&message); 
zmq recv (socket, &message, 9); 
int size - zmq msg size (&message); 
char *string = malloc (size + 1); 
memcpy (string, zmq msg data (&message), size); 
zmq msg close (&message); 
string [size] = 0; 
return (string); 


这 段 代码 我 们 会 在 日 后 的 示例 中 使 用 ， 我 们 可 以 顺手 写 一 个 s_send() 方 法 ， 并 打包 
À— A. hc RERA e 


这 就 诞生 了 zhelpers.h， 一 个 供 C 语 言 使 用 的 ZMQ 功 能 函数 库 。 它 的 源 代码 比较 
长 ， 而 且 只 对 C 语 言 程序 员 有 用 ， 你 可 以 在 闲暇 时 看 一 看 。 
获取 版 本 号 


ZMQ 目 前 有 多 个 版 本 ， 而 且 仍 在 持续 更 新 。 如 果 你 遇 到 了 问题 ， 也 许 这 在 下 一 个 版 
本 中 已 经 解决 了 。 想 知道 目前 的 ZMQ 版 本 ， 你 可 以 在 程序 中 运行 如 下 : 


version: OMQ version reporting in C 


Jn 

// 返回 当前 ZMQ 的 版 本 号 
// 

#include "zhelpers.h" 


int main (void) 


{ 
int major, minor, patch; 
zmq version (&major, &minor, &patch); 
printf ("当前 ZMQ 版 本 号 为 96d.96d.96dNn", major, minor, patch); 
return EXIT SUCCESS; 
} 


让 消息 流动 起 来 

第 二 种 经 典 的 消息 模式 是 单 向 数据 分 发 : 服务 端 将 更 新 事件 发 送 给 一 组 客户 端 。 让 
我 们 看 一 个 天 气 信息 发 布 的 例子 ， 包 括 邮编 、 温 度 、 相 对 湿度 。 我 们 生成 这 些 随机 
信息 ， 用 来 模拟 气象 站 所 做 的 那样 。 

下 面 是 服务 端的 代码 ， 使 用 5556 端 口 : 


wuserver: Weather update server in C 


Wd 
7 
VM 
MU 
72 


气象 信息 更 新 服务 
ARX PUB dE T. £tcp://*:555635 A 
发 布 随机 气象 信息 


Zinclude "zhelpers.h" 


int main (void) 


( 


j 


HE — 8# 


// ”准备 上 下 文 和 PUB 套 接 字 

void *context = zmq init (1); 

void *publisher - zmq socket (context, ZMQ PUB); 
zmq bind (publisher, "tcp://*:5556"); 

zmq bind (publisher, "ipc://weather.ipc"); 


// 初始 化 随机 数 生成 器 
srandom ((unsigned) time (NULL)); 
while (1) ( 
// ”生成 数据 
int zipcode, temperature, relhumidity; 


zipcode = randof (100000); 
temperature - randof (215) - 80; 
relhumidity = randof (50) + 10; 


// 向 所 有 订阅 者 发 送 消息 
char update [20]; 
sprintf (update, "%05d %d %d", zipcode, temperature, relhur 
s_send (publisher, update); 
} 
zmq close (publisher); 
zmq term (context); 
return 0; 





这 项 更 新 服务 没有 开始 、 没 有 结束 ， 就 像 永 不 消失 的 电波 一 样 。 





Publisher 


bind 





connect connect connect 
Figure 4 一 Publish-Subscribe 


下 面 是 客户 端 程序 ， 它 会 接受 发 布 者 的 消息 ， 只 处 理 特 定 邮 编 标 注 的 信息 ， 如 纽约 
的 邮编 是 10001: 


wuclient: Weather update client in C 


"p 

Z/ Xa Rx pm 

//  iEAESUB EAE Y. £ tcp: / / * :5556 端 点 

// 收集 指定 邮编 的 气象 信息 ， 并 计算 平均 温度 
7 

#include "zhelpers.h" 





int main (int argc, char *argv []) 
X 


void *context - zmq init (1); 


// 创建 连接 至 服务 端的 套 接 字 

printf (3E Xu 4s... Ants 

void *subscriber - zmq socket (context, ZMQ SUB); 
zmq connect (subscriber, "tcp://localhost:5556"); 


// 设置 订阅 信息 ， 黑 认为 纽约 ， 邮 编 10001 
char *filter = (argc » 1)? argv [1]: "10001 "; 
zmq setsockopt (subscriber, ZMQ SUBSCRIBE, filter, 


// 处 理 100 条 更 新 信息 
int update nbr; 
long total temp 
for (update nbr 

char *string = s recv (subscriber); 

int zipcode, temperature, relhumidity; 

sscanf (string, "%d 96d 96d", 

&zipcode, &temperature, &relhumidity); 
total temp += temperature; 
free (string); 


0; 


} 
printf ("地 区 邮编 '%s' 的 平均 温度 为 %dF\n", 
filter, (int) (total temp / update nbr)); 


zmq close (subscriber); 
zmq term (context); 
peturnm o 


strlen (fill 


0; update nbr < 100; update nbr++) ( 





需要 注意 的 是 ， 在 使 用 SUB 套 接 字 时 ， 必 须 使 用 zmq_setsockopt() 方 法 来 设置 订阅 
的 内 容 。 如 果 你 不 设置 订阅 内 容 ， 那 将 什么 消息 都 收 不 到 ， 新 手 很 容易 犯 这 个 错 
误 。 订 阅 信息 可 以 是 任何 字符 串 ， 可 以 设置 多 次 。 只 要 消息 满足 其 中 一 条 订阅 信 


息 ，SUB 套 接 字 就 会 收 到 。 订 阅 者 可 以 选择 不 接收 某 类 消息 ， 也 是 通 


zmq_setsockopt() 方 法 实现 的 。 


过 


PUB-SUB 套 接 字 组 合 是 异步 的 。 客 户 端 在 一 个 循环 体 中 使 用 zmq_recv() 接 收 消 
息 ， 如 果 向 SUB 套 接 字 发 送 消息 则 会 报错 ; 类 似 地 ， 服 务 端 可 以 不 断 地 使 用 


zmq_send() 发 送 消息 ， 但 不 能 在 PUB 套 接 字 上 使 用 zmq_recv()。 


关于 PUB-SUB 套 接 字 ， 还 有 一 点 需要 注意 : 你 无 法 得 知 SUB 是 何 时 开始 接收 消息 
c Ea que 后 打开 PUB 发 送 消息 ， 这 时 SUB 还 是 会 丢失 一 些 
消息 的 ， 因 为 建立 连接 是 需要 一 些 时 间 的 。 很 少 ， 但 并 不 是 零 。 


这 种 “ 慢 连 接 " 的 症状 一 开始 会 让 很 多 人 困惑 ， 所 以 这 里 我 要 详细 解释 一 下 。 还 记得 
ZMQ 是 在 后 台 进 行 异 步 的 JO 传 输 的 ， 如 果 你 有 两 个 节点 用 以 下 顺序 相连 


o 订阅 者 连接 至 端点 接收 消息 并 计数 ; 
e 发 布 者 绑 定 至 端点 并 立刻 发 送 1000 条 消息 。 


运行 的 Paa EETA 4 LAATRE] o 3x RTT SER RER OC TAERAA 
有 设置 订阅 信息 ， 并 重新 尝试 ， 但 结果 还 是 一 样 。 


我 们 知道 在 建立 TCP 连 接 时 需要 进行 三 次 握手 ， 会 耗费 几 意 秒 的 时 间 ， 而 当 节 点 数 
a 。 在 这 么 短 的 时 间 里 ，ZMQ 就 可 以 发 送 很 多 很 多 消息 了 。 
举例 来 说 ， 如 果 建 立 连接 需要 耗 时 5 毫秒 ， 而 ZMQ 只 需要 1 毫秒 就 可 以 发 送 完 这 
1000 条 消息 。 


第 二 章 中 我 会 解释 如 何 使 发 布 者 和 订阅 者 同步 ， 只 有 当 订 阅 者 准备 好 时 发 布 者 才 会 
开始 发 送 消 息 。 有 一 种 简单 的 方法 来 同步 PUB 和 SUB， 就 是 让 PUB 延迟 一 段 时 间 再 
发 送 消息 。 现 实 编程 中 我 不 建议 使 用 这 种 方式 ， 因 为 它 太 脆弱 了 ， 而 且 不 好 控制 。 
不 过 这 里 我 们 先 暂且 使 用 Sleep 的 方式 来 解决 ， 等 到 第 二 章 的 时 候 再 讲述 正确 的 处 理 
方式 。 

另 一 种 同步 的 方式 则 是 认为 发 布 者 的 消 BOREAS 无 尽 的 ? 因此 丢失 了 前 面 一 一 部 分 分 
信息 也 没有 关系 。 o 我 们 的 气象 信息 客户 端 就 是 这 么 做 的 。 


示例 中 的 气象 信息 客户 端 会 收集 指定 邮编 的 一 千 条 信 ， > 其 间 大 约 有 1000 万 条 信 息 
被 发 布 。 IRAAATAEPA MIARA. L  RHAETEREA 2 时 
客户 端 仍 会 正常 工作 。 当 客 户 端 收集 完 所 需 信 ， 自 后 ， 会 计算 并 输出 平均 温度 o 


关于 发 布 -订阅 模式 的 几 点 说 明 : 


e 订阅 者 可 以 连接 多 个 发 布 者 ， 轮 流 接收 消息 ; 

e 如 果 发 布 者 没有 订阅 者 与 之 相连 ， 那 它 发 送 的 消 x ATI ; 

e 如 果 你 使 用 TCP 协 议 ， 那 当 订 阅 者 处 理 速度 过 慢 时 ， 消 息 会 在 发 布 者 处 堆积 。 
以 后 我 们 会 讨论 如 何 使 用 阅 值 (HWM) 来 保护 发 布 者 。 

e 在 目前 版 本 的 ZMQ 中 ， 消 息 的 过 滤 是 在 订阅 者 处 进行 的 。 也 就 是 说 ， 发 布 者 会 
向 订阅 者 发 送 所 有 的 消息 ， 订 阅 者 会 将 未 订阅 的 消息 丢弃 。 


我 在 自己 的 四 核 计算 机 上 尝试 发 布 1000 万 条 消息 ， 速 度 很 快 ， 但 没什么 特别 的 


ph@ws200901:~/work/git/OMQGUuide/examples/c$ time wuclient 
Collecting updates from weather server... 
Average temperature for zipcode '10001 ' was 18F 


real om5 .939S 
user 9mi.590s 
Sys 0m2.290s 


分 布 式 处 理 
下 面 一 个 示例 程序 中 ， 我 们 将 使 用 ZMQ 进 行 超级 计算 ， 也 就 是 并 行 处 理 模型 : 
任务 分 发 器 会 生成 大 量 可 以 并 行 计 算 的 任务 ; 
e 有 一 组 worker 会 处 理 这 些 任务 ; 
e 结果 收集 器 会 在 末端 接收 所 有 Worker 的 处 理 结果 ， 进 行 汇总 。 


现实 中 ，worker 可 能 散落 在 不 同 的 计算 机 中 ， 利 用 GPU (图 像 处 理 单 元 ) 进行 复杂 
计算 。 下 面 是 任务 分 发 器 的 代码 ， 它 会 生成 100 个 任务 ， 任 务 内 容 是 让 收 到 的 
workerz£ 3R 27 T & f » 


taskvent: Parallel task ventilator in C 


W 
// 
MA 
MU 
// 


任务 分 发 器 


JP X PUSH £4 Y € tcp://localhost:555735 4 
发 送 一 组 任务 给 已 建立 连接 的 worker 


Zinclude "zhelpers.h" 


int main (void) 


{ 


void *context = zmq init (1); 


// 用 于 发 送 消 息 的 套 接 字 
void *sender = zmq socket (context, ZMQ PUSH); 
zmq bind (sender, "tcp://*:5557"); 


// 用 于 发 送 开始 信号 的 套 接 字 
void *sink = zmq socket (context, ZMQ PUSH); 
zmq connect (sink, "tcp://localhost:5558"); 


printf ("准备 好 worker 后 按 任意 键 开始 : "); 


getchar (); 


printf ("正在 向 WoOrker 分 配 任务 .Nn"); 


// ”发 送 开 始 信 号 
s send (sink, "0"); 


// ”初始 化 随机 数 生成 器 
srandom ((unsigned) 


// 发 送 100 个 任务 
int task nbr; 
int total msec - 0; 


time (NULL)); 


// ”预计 执行 时 间 (ES) 


for (task nbr = 0; task nbr < 100; task nbr++) { 


int workload; 


// 随机 产生 1-100 毫 秒 的 工作 量 
workload = randof (100) + 1; 
total msec += workload; 

char streng [10]; 


Sprint (Stramg, 
s send (sender, 


d 
printf ("预计 执行 时 间 ; 


sleep (1); 


zmq close (sink); 
zmq close (sender); 
zmq term (context); 
return 0; 


"9d", workload); 
string); 


«d €f/'Nn", total msec); 
// 延迟 一 段 时 间 ， 让 任务 分 发 完成 


N 
O 








Ventilator 


tas 








Figure 5 一 Parallel Pipeline 


下 面 是 worker 的 代码 ， 它 接受 信息 并 延迟 指定 的 毫秒 数 ， 并 发 送 执行 


taskwork: Parallel task worker in C 


> r5 


// 任务 执行 器 

// ”连接 PULL 套 接 字 至 tcp://localhost:5557 端 点 
// ”从 任务 分 发 器 处 获取 任务 

// ”连接 PUSH 套 接 字 至 tcp://localhost:5558 端 点 
// ”向 结果 采集 器 发 送 结 


#include "zhelpers.h" 


int main (void) 


{ 


void *context = zmq init (1); 


// ”获取 任务 的 套 接 字 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq connect (receiver, "tcp://localhost:5557"); 


// 发 送 结果 的 套 接 字 
void *sender = zmq socket (context, ZMQ PUSH); 
zmq connect (sender, "tcp://localhost:5558"); 


// 循环 处 理 任 务 
while (1) { 
char *string - s recv (receiver); 
// ”输出 处 理 进度 
fflush (stdout); 
pripntfte-( 55. string); 


// 开始 处 理 
Ss sleep (atoi (string)); 
free (string); 


// 发 送 结果 
s send (sender, ""); 


j 


zmq close (receiver); 
zmq close (sender); 
zmq term (context); 
maet uma 


下 面 是 结果 收集 器 的 代码 。 它 会 收集 100 个 处 理 结 果 ， 并 计算 总 的 执行 时 间 ， 让 我 
们 由 此 判别 任务 是 否 是 并 行 计 草 的 。 


tasksink: Parallel task sink in C 


zo 

// 任务 收集 器 

// ” 绑 定 PULL 套 接 字 至 tcp://localhost:5558 端 点 
// ”从 worker 处 收集 处 理 结果 

72 d 

Zinclude "zhelpers.h" 


int main (void) 

{ 
// ”准备 上 下 文 和 套 接 字 
void *context = zmq_init (1); 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq bind (receiver, "tcp://*:5558"); 
// 等 待 开始 信号 
char *string = 
free (string); 


S recv (receiver); 


// ”开始 计时 
int64 t start time = s clock (); 


// ”确定 100 个 任务 均 已 处 理 
int task_nbr; 
for (task nbr = 0; task nbr < 100; task nbr++) ( 
char *string = s recv (receiver); 
free (string); 
if ((task nbr / 10) * 10 -- task nbr) 
prasmbcbo ume 
else 
primet C 
fflush (stdout); 
} 
// 计算 并 输出 总 执行 时 间 
printf ("执行 时 间 ; %d 毫秒 \n'， 
(int) (s clock () - start time)); 


zmq close (receiver); 
zmq term (context); 
reti 


一 组 任务 的 平均 执行 时 间 在 5 秒 左右 ， 以 下 是 分 别 开 始 1 个 、2 个 、4 个 worker 时 的 执 
行 结果 : 


# 1 worker 
Total elapsed time: 5034 msec 
# 2 workers 
Total elapsed time: 2421 msec 
# 4 workers 
Total elapsed time: 1018 msec 


关于 这 段 代 码 的 几 个 细节 : 


e Worker 上 游 和 任务 分 发 器 相连 ， 下 游 和 结果 收集 器 相连 ， 这 就 意味 着 你 可 以 开 
局 任意 多 个 worker。 但 若 worker 是 绑 定 至 端点 的 ， 而 非 连接 至 端点 ， 那 我 们 就 
需要 准备 更 多 的 端点 ， 并 配置 任务 分 发 器 和 结果 收集 器 。 所 以 说 ， 任 务 分 发 器 
和 结果 收集 器 是 这 个 网 络 结构 中 较为 稳定 的 部 分 ， 因 此 应 该 由 它们 绑 定 至 端 
点 ， 而 非 Worker， 因 为 它们 较为 动态 。 


e 我 们 需要 做 一 些 同步 的 工作 ， 等 待 worker 全 部 启动 之 后 再 分 发 任务 。 这 点 在 
ZMQ 中 很 重要 ， 且 不 易 解决 。 连 接 套 接 字 的 动作 会 耗费 一 定 的 时 间 ， 因 此 当 第 
一 个 worker 连 接 成 功 时 ， 它 会 一 下 收 到 很 多 任务 。 所 以 说 ， 如 果 我 们 不 进行 同 
步 ， 那 这 些 任务 根本 就 不 会 被 并 行 地 执行 。 你 可 以 自己 试验 一 下 。 


e 任务 分 发 器 使 用 PUSH 和 套 接 字 向 worker 均 匀 地 分 发 任务 (假设 所 有 的 worker 都 
已 经 连接 上 了 ) ， 这 种 机 制 称 为 负载 均衡 ， 以 后 我 们 会 见得 更 多 。 


e 结果 收集 器 的 PULL 套 接 字 会 均匀 地 从 Worker 处 收集 消息 ， 这 种 机 制 称 为 公平 
队列 : 





PUSH 





fair queuin 
R1, R4, R5, R2, R6, R3 


PULL 


Figure6 -— Fair queuing 


管道 模式 也 会 出 现 慢 连 接 的 情况 ， 让 人 误 以 为 PUSH 和 套 接 字 没 有 进行 负载 均衡 。 如 
果 你 的 程序 中 某 个 worker 接 收 到 了 更 多 的 请 求 ， 那 是 因为 它 的 PULL 套 接 字 连 接 得 
比较 快 ， 从 而 在 别 的 worker 连 接 之 前 获取 了 额外 的 消息 。 


使 用 ZMQ 编 程 


看 着 这 些 示例 程序 后 ， 你 一 定 人 迫不及待 想 要 用 ZMQ 进 行 编程 了 。 不 过 在 开始 之 前 ， 
我 还 有 几 条 建议 想 给 到 你 ， 这 样 可 以 省 去 未 来 的 一 些 麻烦 : 


e 学 习 ZMQ 要 循序 渐进 ， 虽 然 它 只 是 一 套 API， 但 却 提供 了 无 尽 的 可 能 。 一 步 一 
步 学 习 它 提供 的 功能 ， 并 完全 掌握 。 


e 编写 漂亮 的 代码 。 王 陋 的 代码 会 隐藏 问题 ， 让 想 要 帮助 你 的 人 无 从 下 手 。 比 
如 ， 你 会 习惯 于 使 用 无 意义 的 变量 名 ， 但 读 你 代码 的 人 并 不 知道 。 应 使 用 有 意 
义 的 变量 名 称 ， 而 不 是 随意 起 一 个 。 代 码 的 缩 进 要 统一 ， 布 局 清晰 。 淋 亮 的 代 
码 可 以 让 你 的 世界 变 得 更 美好 。 


e 边 写 边 测试 ， 当 代码 出 现 问题 ， 你 就 可 以 快速 定位 到 某 些 行 。 这 一 点 在 编写 
ZMQ 应 用 程序 时 尤为 重要 ， 因 为 很 多 时 候 你 无 法 第 一 次 就 编写 出 正确 的 代码 。 


e 当 你 发 现 自己 编写 的 代码 无 法 正常 工作 时 ， 


e 需要 时 应 使 用 抽象 的 方法 来 编写 程序 


看 看 哪 段 没 有 正确 地 执行 。ZMQ 可 以 让 你 构建 非 党 
好 利用 这 一 点 。 


(类 、 成 员 函 数 等 等 ) 
码 ， 因 为 拷贝 代码 的 同时 也 是 在 拷贝 错误 。 


我 们 看 看 下 面 这 段 代 码 ， 是 茶 位 同仁 让 我 帮忙 修改 的 : 


/ / 


注意 : 不 要 使 用 这 段 代码 | 


static char *topic str = "msg.x|"; 


void* pub worker(void* arg)( 


void *ctx - arg; 
assert(ctx); 


void *qskt = zmq socket(ctx, 
assert(qskt); 


ZMQ REP); 


CAE A X — EIN H BE 


模块 化 的 代码 ， 所 以 应 该 好 


int rc = zmq connect(qskt, "inproc://querys"); 


assert(rc -- 0); 


void *pubskt - zmq socket(ctx, 


assert(pubskt); 


rc - zmq bind(pubskt, "inproc: 


assert(rc -- 0); 

uint8 t cmd; 

uint32 t nb: 

zmq msg t topic msg, cmd msg, 


zmq msg init data(&topic msg, 


ZMQ PUB); 


nb msg, res 


topic str, 


//publish"); 


p. msg; 


strlen(topic str) , 


fprintf(stdout, WORKER: ready to recieve messagesNMn"); 


// 注意 : 不 要 使 用 这 段 代码 ， 它 不 能 


IR! 


// e.g. topic msg will be invalid the second time through 


while (1){ 


zmq send(pubskt, &topic msg, ZMQ SNDMORE); 


zmq msg init(&cmd msg); 
zmq recv(qskt, &cmd msg, 9); 


memcpy(&cmd, zmq msg data(&cmd msg), sizeof(uint8 t)); 


zmq send(pubskt, &cmd msg, ZM 
zmq msg close(&cmd msg); 


fprintf(stdout, "recieved cmd 


zmq msg init(&nb msg); 

zmq recv(qskt, &nb msg, 9); 
memcpy(&nb, zmq msg data(&nb 
zmq send(pubskt, &nb msg, 9); 


Q SNDMORE); 


%u\n", cmd); 


, 


-msg), sizeof(uint32 t)); 


， 不 要 随意 拷贝 代 


NI 


zmq msg close(&nb msg); 
fprintf(stdout, “recieved nb XuNn> nb); 


zmq msg init size(&resp msg, sizeof(uint8 t)); 
memset(zmq msg data(&resp msg), ©, sizeof(uint8 t)); 
zmq send(qskt, &resp msg, 9); 

zmq msg close(&resp msg); 


} 
return NULL; 


4 m 一 
下 面 是 我 为 他 重 写 的 代码 ， 顺 便 修 复 了 一 些 BUG : 


statie void? 

worker_thread (void *arg) { 
void *context = arg; 
void *worker = zmq socket (context, ZMQ REP); 
assert (worker); 


Ent b. 
rc - zmq connect (worker, "ipc://worker"); 
assert (rc -- 0); 


void *broadcast - zmq socket (context, ZMQ PUB); 
assert (broadcast); 

rc - zmq bind (broadcast, "ipc://publish"); 
assert (rc -- 0); 


while (1) ( 
char *parti = s recv (worker); 
char *part2 - s recv (worker); 
printf ("Worker got [%s][%s]\n", parti, part2); 
s sendmore (broadcast, "msg"); 
s sendmore (broadcast, part1); 
s send (broadcast, part2); 
free (part1); 
free (part2); 


s send (worker, "OK"); 


} 
returni NULLE 





上 段 程序 的 最 后 ， 它 将 套 接 字 在 两 个 线程 之 问 传递 ， 这 会 导致 莫名其妙 的 问题 。 这 


种 行为 在 ZMQ 2.1 中 虽然 是 合法 的 ， 但 是 不 提倡 使 用 。 


ZMQ 2.1 版 


历史 告诉 我 们 ，ZMQ 2.0 是 一 个 低 延 迟 的 分 布 式 消 息 系统 ， 它 从 众多 同类 软件 中 脱 
颖 而 出 ， 摆 脱 了 各 种 奢华 的 名 目 ， 向 世界 宣告 “无 极限 "的 口号 。 这 是 我 们 一 直 在 使 
用 的 稳定 发 行 版 。 


时 过 境 迁 ，2010 年 流行 的 东西 在 2011 年 就 不 一 定 了 。 当 ZMQ 的 开发 者 和 社区 开发 
者 在 激烈 地 讨论 ZMQ 的 种 种 问题 时 ，ZMQ 2.1 横 空 出 世 了 ， 成 为 新 的 稳定 发 行 版 。 


本 指南 主要 针对 ZMQ 2.1 进 行 描 述 ， 因 此 对 于 从 ZMQ 2.0 迁 移 过 来 的 开发 者 来 说 有 
一 些 需 要 注意 的 地 方 : 


e 在 2.0 中 ， 调 用 zmq _， close() 和 zmq _term() 时 会 丢弃 所 有 尚未 发 送 的 消 肖 息 ， 所 以 
在 发 送 完 消息 后 不 能 直接 关闭 程序 ，2.0 的 示例 中 往 往往 使 用 sleep(1) 来 规避 这 个 
问题 。 但 是 在 2.1 中 就 不 需要 这 样 做 了 ， 程 序 会 等 待 消息 全 部 发 送 完 毕 后 再 退 
出 o 


e 相反 地 ，2.0 中 可 以 在 尚 有 套 接 字 打开 的 情况 下 调用 zmqterm()， 这 在 2.1 中 会 变 
得 不 安全 ， 会 造成 程序 的 阻塞 。 所 以 ， 在 2.1 程 序 中 我 们 会 先 关闭 所 有 的 套 接 
字 ， 然 后 才 退 出 程序 。 如 果 套 接 字 中 有 尚未 发 送 的 消息 ， 程 序 就 会 一 直 处 于 等 
待 状态 ， 除 非 手 工 设置 了 套 接 字 的 LINGER 选 项 (WEIR) ， 那 么 套 接 字 
会 在 相应 的 时 间 后 关闭 。 


int zero = 0; 
zmq setsockopt (mysocket, ZMQ LINGER, &zero, sizeof (zero)); 


e 207^ zm poll()/8 $2 JE are 能 ， 它 会 在 满足 条 件 时 立刻 返回 ， 我 们 
在 循环 体 中 检查 还 有 多 少 剩余 。 但 在 2.1 中 ，zmq_poll() 会 在 指定 时 间 后 返 
因此 可 以 作为 定时 器 使 用 。 


e 2.0 中 ，ZMQ 会 忽略 系统 的 中 断 消息 ， 这 就 意味 着 对 libzmq 的 调用 是 不 会 收 到 
EINTR 消 息 的 ， 这 样 就 无 法 对 SIGINT (Ctrl-C) 等 消息 进行 处 理 了 。 在 2.1 中 ， 
这 个 问题 得 以 解决 ， 像 类 似 zmq_recv() 的 方法 都 会 接收 并 返回 系统 的 EINTR 消 
息 o 


正确 地 使 用 上 下 文 


ZMQ 应 用 程序 的 一 开始 总 是 会 先 创建 一 个 上 下 文 ， 并 用 它 来 创建 套 接 字 。 在 C 语 语 
中 ， 创 建 上 下 文 的 函数 是 zmq_init()。 一 个 进程 中 只 应 该 创建 一 个 上 下 文 。 从 技术 的 
角度 来 说 ， 上 下 文 是 一 个 容器 ， 包 含 了 该 进程 下 所 有 的 套 接 字 ， 并 为 inproc 协 议 提 
供 实现 ， 用 以 高 速 连接 进程 内 不 同 的 线程 。 如 果 一 个 进程 中 创建 了 两 个 上 下 文 ， 那 
就 相当 于 启动 了 两 个 ZMQ 实 例 。 如 果 这 正 是 你 需要 的 ， 那 没有 问题 ， 但 一 般 情况 
qeu 

dk — ^ 3t f£ P 4$ Fl zmq init() Zt € i& — 4- ET 3c» HE 25 RH E Flzmq. term() $ 
数 关闭 它 


如 果 你 使 用 了 fork() 系 统 调用 ， 那 每 个 进程 需要 自己 的 上 下 文 对 象 。 如 果 在 调用 
fork() 之 前 调用 了 zmq _init() 函 数 ， 那 每 个 子 进程 都 会 有 自己 的 上 下 文 对 象 。 通 常情 
况 下 ， 你 会 需要 在 子 进程 中 做 些 有 趣 的 事 ， 而 让 父 进 程 来 管理 它们 。 


正确 地 退出 和 清理 


程序 员 的 一 个 良好 习惯 是 : EXE 吉 束 时 进行 清理 工作 。 当 你 使 用 像 Python 那 样 的 
语言 编写 ZMQ 应 用 程序 时 ， 系 统 会 自动 帮 你 完成 清理 。 但 如 果 使 用 的 是 C 语 言 ， 那 
就 需要 小 心地 处 理 了 ， 否 则 可 能 发 生 内 存 泄 露 、 应 用 程序 不 稳定 等 问题 。 


内 存 泄露 只 是 问题 之 一 ， 其 实 ZMQ 是 很 在 意 程序 的 退出 方式 的 。 个 中 原因 比较 复 
杂 ， 但 简单 的 来 说 ， 如 果 仍 有 套 接 字 处 于 打开 状态 ， 调 用 zmq_term() 时 会 导致 程序 
挂 起 ; 就 算 关 闭 了 所 有 的 套 接 字 ， 如 果 仍 有 消息 处 于 待 发 送 状态 ，zmq_term() 也 会 
造成 程序 的 等 待 。 只 有 当 套 接 字 的 LINGER 选 项 设 为 0 时 才能 避免 。 


我 们 需要 关注 的 ZMQ 对 象 包括 : 消息 、 套 接 字 、 上 下 文 。 好 在 内 容 并 不 多 ， 至 少 在 
一 般 的 应 用 程序 中 是 这 样 : 


e 处 理 完 消息 后 ， 记 得 用 zmq_msg _close() 函 数 关闭 消息 ; 

e 如 果 你 同时 打开 或 关闭 了 很 多 套 接 字 ， 那 可 能 需要 重新 规划 一 下 程序 的 结构 
3.3 

e 退出 程序 时 ， 应 该 先 关闭 所 有 的 套 接 字 ， 最 后 调用 zmq_term() 函 数 ， 销 毁 上 
LA 


如 果 要 用 ZMQ 进 行 多 线程 的 编程 ， 需 要 考虑 的 问题 就 更 多 了 。 Et 
述 多 线程 编程 ， 但 如 果 你 耐 不 住 性 子 想 要 尝试 一 下 ， 以 下 是 在 退出 时 的 一 些 建 


e 不 要 在 多 个 线程 中 使 用 同一 个 套 接 字 。 不 要 去 想 为 什么 ， 反 正 别 这 么 干 就 是 
dos 

e 关闭 所 有 的 套 接 字 ， 并 在 主 程序 中 关闭 上 下 文 对 象 。 

e. 如 果 仍 有 处 于 阻塞 状态 的 recv 或 poll 调 用 ， 应 该 在 主 程序 中 捕 提 这 些 pale (3E 
在 相应 的 线程 中 关闭 套 接 字 。 不 要 重复 关闭 上 下 文 ，zmq term() 函 数 会 等 待 所 
有 的 套 接 字 安 全 地 关闭 后 才 结 束 。 


Do 过 程 是 复杂 的 ， 所 以 不 同 语言 的 AP| 实 现 者 可 能 会 将 这 些 步 又 封装 起 来 ， 让 
结束 程序 变 得 不 那么 复杂 。 


我 们 为 什么 需要 ZMQ 
现在 我 们 已 经 将 ZMQ 运 行 起 来 了 ， 让 我 们 回顾 一 下 为 什么 我 们 需要 ZMQ : 


目前 的 应 用 程序 很 多 都 会 包含 跨 网 络 的 组 件 ， 无 论 是 局 域 网 还 是 因特网 。 这 些 程序 
的 开发 者 都 会 用 到 某 种 消息 通信 机 制 。 有 些 人 会 使 用 某 种 消息 队列 产品 ， 而 大 多 数 
S 使 用 TCP 或 UDP 协议 。 这 些 协 议 使 用 起 来 并 不 困难 ， 

加 是 ， 简 单 地 将 消息 从 A 发 给 B， 和 在 任何 情况 下 都 能 进行 可 靠 的 消息 传输 ， 这 两 种 


让 我 们 看 看 在 使 用 纯 TCP 协 议 进行 消息 传输 时 会 遇 到 的 一 些 典 型 问题 。 任 何 可 复 用 
的 消息 传输 层 肯 定 或 多 或 少 地 会 要 解决 以 下 问题 : 


e 如 何 处 理 |/O ? 是 让 程序 阻塞 等 待 响 应 ， 还 是 在 后 台 处 理 这 些 事 ? 这 是 软件 设计 
的 关键 因素 。 阻 塞 式 的 |/O 操 作 会 让 程序 架构 难以 扩展 ， 而 后 台 处 理 I/D 也 是 比 
较 困 难 的 。 


e 如 何 处 理 那 些 临 时 的 、 来 去 自由 的 组 件 ? 我 们 是 否 要 将 组 件 分 为 客户 端 和 服务 
端 两 种 ， 并 要 求 服务 端 永 不 消失 ? 那 如 果 我 们 想 要 将 服务 端 相连 怎么 办 ? 我 们 
要 每 隔 几 秒 就 进 行 重 连 吗 ? 


e 我 们 如 何 表 示 一 条 消息 ? 我 们 怎样 通过 拆 分 消息 ， 让 其 变 得 易 读 易 写 ， 不 用 担 
心 缓存 溢出 ， 既 能 高 效 地 传输 小 消息 ， 又 能 胜任 视频 等 大 型 文件 的 传输 ? 


e 如 何 处 理 那 些 不 能 立刻 发 送出 去 的 消息 ? 比如 我 们 需要 等 待 一 个 网 络 组 件 重新 
连接 的 时 候 ? 我 们 是 直接 丢弃 该 条 消息 ， 还 是 将 它 存 入 数据 库 ， 或 是 内 存 中 的 
一 个 队列 ? 


e 要 在 哪里 保存 消息 队列 ? 如 果菜 个 组 件 读 取消 息 队 列 的 速度 很 慢 ， 造 成 消息 的 
堆积 怎么 办 ? 我 们 要 采取 什么 样 的 策略 ? 

e 如 何 处 理 丢 失 的 消息 ? 我 们 是 等 待 新 的 数据 ， 请 求 重 发 ， 还 是 需要 建立 一 套 新 
的 可 靠 性 机 制 以 保证 消息 不 会 丢失 ? 如 果 这 个 机 制 自身 崩溃 了 呢 ? 


e 如 果 我 们 想 换 一 种 网 络 连 接 协议 ， ' 如 用 广播 代替 TCP 单 播 ? 或 者 改 用 IPv6 ? R 
们 是 否 需要 重 写 所 有 的 应 用 程序 ， 或 者 将 这 种 协议 抽象 到 一 个 单独 的 层 中 了? 


。 我 们 如 何 对 消息 进行 路 由 ? 我 们 可 以 将 消息 同时 发 送 给 多 个 节点 吗 ? 是 否 能 将 
应 答 消息 返回 给 请 求 的 发 送 方 ? 


e 我 们 如 何 为 另 一 种 语言 写 一 个 API1? 我 们 是 否 需要 完全 重 写 某 项 协议 ， 还 是 重 
新 打包 一 个 类 库 ? 


e 怎样 才能 做 到 在 不 同 的 架构 之 间 传 送 消息 ?是否 需要 为 消息 规定 一 种 编码 ? 
e 我 们 如 何 处 理 网 络 通信 错误 ? 等待 并 重 试 ， 还 是 直接 忽略 或 取消 ? 


我 们 可 以 找 一 个 开源 软件 来 做 例子 ， 如 Hadoop Zookeeper， 看 一 下 它 的 C 语 言 API 

源码 ，src/c/src/zookeeperc。 这 段 代码 大 约 有 3200 行 ， 没 有 注释 ， 实 现 了 一 个 C/S 

网 络 通信 协议 。 它 工作 起 来 很 高 效 ， 因 为 使 用 Tp RE ean 。 但 是 ， 

Zookeeper 应 该 被 抽象 出 来 ， 作 为 一 种 通用 的 消息 通信 层 ， 并 加 以 详细 的 注释 。 像 
这 样 的 模块 应 该 得 到 最 大 程度 上 的 复 用 ， 而 不 是 重复 地 制造 轮子 。 





Piece A 


Piece B 


T 


Figure 7 — Messaging as it starts 


但 是 ， 如 何 编写 这 样 一 个 可 复 用 的 消息 层 呢 ? 为 什么 长 久 以 来 人 们 宁愿 在 自己 的 代 
码 中 重复 书写 控制 原始 TCP 套 接 字 的 代码 ， 而 不 愿 编 写 这 样 一 个 公共 库 呢 ? 


其 实 ， 要 编写 一 个 通用 的 消息 层 是 件 非常 困难 的 事 ， 这 也 是 为 什么 FOSS 项 目 不 断 
在 尝试 ， 一 些 商业 化 的 消息 产品 如 此 之 复杂 、 吨 贵 、 僵 硬 、 脆 弱 。2006 年 ，iMatix 
设计 了 AMQP 协 议 ， 为 FOSS 项 目的 开发 者 提供 了 可 能 是 当时 第 一 个 可 复 用 的 消息 
系统 。AMQP 比 其 他 同类 产品 要 来 得 好 ， 但 仍然 是 复杂 、 兄 贵 和 脆弱 的 。 它 需要 花 
费 几 周 的 时 间 去 学 习 ， 花 费 数 月 的 时 间 去 创建 一 个 真正 能 用 的 架构 ， 到 那 时 可 能 区 
时 已 晚 了 。 


大 多 数 消息 系统 项 目 ， 如 AMQP ， 为 了 解决 上 面 提 到 的 种 种 问题 ， 发 明了 一 些 新 的 
概念 ， 如 "代理 "的 概念 ， 将 寻 址 、 路 由 、 队 列 等 功能 都 包含 了 进来 。 结 果 就 是 在 一 
个 没有 任何 注释 的 协议 之 上 ， 又 构建 了 一 个 C/S 协 议和 相应 的 API， 让 应 用 程序 和 代 
理 相 互通 信 。 代 理 的 确 是 一 个 不 错 的 解决 方案 ， 帮 助 降低 大 型 网 络 结构 的 复杂 度 。 
但 是 ， 在 Zookeeper 这 样 的 项 目 中 应 用 代理 机 制 的 消息 系统 ， 可 能 是 件 更 加 糟糕 的 
事 ， 因 为 这 意味 了 需要 添加 一 台新 的 计算 机 ， 并 构成 一 个 新 的 单 点 故障 。 代 理会 逐 
渐 成 为 新 的 瓶颈 ， 管 理 起 来 更 具 风 险 。 如 果 软 件 支持 ， 我 们 可 以 添加 第 二 个 、 第 三 
个 、 第 四 个 代理 ， 构 成 某 种 宛 余 容 错 的 模式 。 有 人 就 是 这 么 做 的 ， 这 让 系统 架构 变 
得 更 为 复杂 ， 增 加 了 隐患 。 


在 这 种 以 代理 为 中 心 的 架构 下 ， 需 要 一 支 专门 的 运 维 团队 。 你 需要 有 昼夜 不 停 地 观察 
代理 的 状态 ， 不 时 地 用 棍棒 调教 他 们 。 你 需要 添加 计算 机 ， 以 及 更 多 的 备份 机 ， 你 
需要 有 专人 管理 这 些 机 器 。 这 样 做 只 对 那些 大 型 的 网 络 应 用 程序 才 有 意义 ， 因 为 他 
们 有 更 多 可 移动 的 模块 ， 有 多 个 团队 进行 开发 和 维护 ， 而 且 已 经 经 过 了 多 年 的 建 
do 

这 样 一 来 ， 中 小 应 用 程序 的 开发 者 们 就 无 计 可 施 了 。 他 们 只 能 设法 避免 编写 网 络 应 
用 程序 ， 转 而 编写 那些 不 需要 扩展 的 程序 ; 或 者 可 以 使 用 原始 的 方式 进行 网 络 编 
程 ， 但 编写 的 软件 会 非常 脆弱 和 复杂 ， 难 以 维护 ; 亦 或 者 他 们 选择 一 种 消息 通信 产 
品 ， 虽 然 能 够 开发 出 扩展 性 强 的 应 用 程序 ， 但 需要 支付 高 郧 的 代价 。 似 乎 没有 一 种 
选择 是 合理 的 ， 这 也 是 为 什么 在 上 个 世纪 消息 系统 会 成 为 一 个 广泛 的 问题 。 
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Figure 8 一 Messaging as it becomes 





我 们 点 正 需 要 的 是 这 样 一 种 消息 软件 ， 它 能 够 做 大 型 消息 软件 所 能 做 的 一 切 ， 但 使 
用 起 来 又 非常 简单 ， 成 本 很 低 ， 可 以 用 到 所 有 的 应 用 程序 中 ， 没 有 任何 依赖 条 件 。 
因为 没有 了 额外 的 模块 ， 就 降低 了 出 错 的 概 举 。 这 种 软件 需要 能 够 在 所 有 的 操作 系 
统 上 运行 ， 并 能 支持 所 有 的 编程 语言 。 


ZMQ 就 是 这 样 一 种 软件 : 它 高 效 ， 提 供 了 虞 入 式 的 类 库 ， 使 应 用 程序 能 够 很 好 地 在 
网 络 中 扩展 ， 成 本 低廉 。 


ZMQ 的 主要 特点 有 : 


e ZMQ 会 在 后 人 台 线 程 异 步 地 处 理 |/O 操 作 ， 它 使 用 一 种 不 会 死 锁 的 数据 结构 来 存 
储 消息 。 

e 网 络 组 件 可 以 来 去 自如 ，ZMQ 会 负责 自动 重 连 ， 这 就 意味 着 你 可 以 以 任何 顺序 
启动 组 件 ; 用 它 创 vic qu (SOA) 中 ， 服 务 端 可 以 随意 地 加 入 或 退 
出 网 络 。 

e ZMQ 会 在 有 必要 的 情况 下 自动 将 消息 放 入 队列 中 人 保存， 一旦 建立 了 连接 就 开始 


发 送 。 
e ZMQA LR (HWM) ke ,可 以 避免 消息 溢出 。 当 队列 已 满 ，ZMQ 会 自动 
阻塞 发 送 者 ， 或 丢弃 部 分 消息 ， 这 些 行为 取决 于 你 所 使 用 的 消息 模式 。 


e ZMQ 可 以 让 你 用 不 同 ud 协议 进行 连接 ， 如 TCP、 广 播 、 进 程 内 、 进 程 间 。 
改变 通信 协议 时 你 不 需要 去 修改 代码 。 

e ZMQ 会 恰当 地 处 理 速 度 较 慢 的 节点 ， 会 根据 消息 模式 使 用 不 同 的 策略 。 

e ZMQ 提 供 了 多 种 模式 进行 消息 路 由 ， 如 请 求 -应 答 模 式 、 发 布 -订阅 模式 等 。 这 
些 模式 可 以 用 来 搭建 网 络 拓扑 结构 。 

e ZMQ 中 可 以 根据 消息 模式 建立 起 一 些 中 间 装 置 〈 很 小 巧 ) ， 可 以 用 来 降低 网 络 
的 复杂 程度 。 

e ZMQ 会 发 送 整个 消息 ， 使 用 消息 帧 的 机 制 来 传递 。 如 果 你 发 送 了 10KB 大 小 的 

消息 ， 你 就 会 收 到 10KB 大 小 的 消息 。 

ZMQ 不 强制 使 用 某 种 消息 格式 ， 消 息 可 以 是 0 字 节 的 ， 或 是 大 到 GB 级 的 数据 。 

当 你 表示 这 些 消 息 时 ， 可 以 选用 诸如 谷歌 的 protocol buffers，XDR 等 序列 化 产 

。ZMQ 能 够 智能 地 处 理 网 络 错误 ， 有 时 它 会 进行 重 试 ， 有 时 会 告知 你 某 项 操作 发 
生 了 错 iX o 

e ZMQ 甚 至 可 以 降低 对 环境 的 污染 ， 因 为 节省 了 CPU 时 间 意 味 着 节省 了 电能 。 


其 实 ZMQ 可 以 做 的 还 不 止 这 些 ， 它 会 颠覆 人 们 编写 网 络 应 用 程序 的 模式 。 虽 然 从 表 
面 上 看 ， 它 不 过 是 提供 了 一 套 处 理 套 接 字 的 AP|， 外 £55 zmq- recv()fezmq. send() 
进行 消息 的 收发 ， 人 但是， 消息 处 理 将 成 为 应 用 程序 的 核心 部 分 ， 很 快 你 的 程序 就 会 
变 成 一 个 个 消息 处 理 模块 ， 这 既 美 观 又 自然 。 它 的 扩展 性 还 很 强 > 每 项 任务 由 一 个 
节点 〈 节 点 是 一 个 线程 ) 、 同 一 台 机 器 上 的 两 个 节点 〈 节 点 是 一 个 进程 ) 、 同 一 
络 上 的 两 台 机 器 (节点 是 一 台 机 器 ) 来 处 理 ， 而 不 需要 改动 应 用 程序 。 


套 接 字 的 扩展 性 


我 们 来 用 实例 看 看 ZMQ 套 接 字 的 扩展 性 。 这 个 脚本 会 启动 气象 信息 服务 及 多 个 客户 


wuserver & 

wuclient 12345 & 
wuclient 23456 & 
wuclient 34567 & 
wuclient 45678 & 
wuclient 56789 & 


执行 过 程 中 ， 我 们 可 以 通过 top 命 令 查看 进程 状态 〈 以 下 是 一 台 四 核 机 器 的 情况 ) 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMA! 
7136 ph 20 © 1040m 959m 1156 R 157 12.0 16:25.47 wusern 
7966 ph 20 0 98608 1804 1372 S 33 0.0 0:03.94 wuclit 
7963 ph 20 0 33116 1748 1372 S 14 0.0 0:00.76 wucli« 
7965 ph 20 0 33116 1784 1372 S 6 0.0 0:00.47 wuclit 
7964 ph 20 0 33116 1788 1372 S 5 0.0 0:00.25 wucli: 
7967 ph 20 0 33072 1740 1372 S 5 0.0 0:00.35 wucli: 





我 们 想 想 现在 发 生 了 什么 : 气象 信息 服务 程序 有 一 个 单独 的 套 接 字 ， 却 能 同时 向 五 
个 客户 端 并 行 地 发 送 消息 。 我 们 可 以 有 成 百 上 千 个 客户 端 并行 地 运作 ， 服 务 端 看 不 
到 这 些 客户 端 ， 不 能 操纵 它们 。 


如 果 解 决 丢 失 消 息 的 问题 


在 编写 ZMQ 应 用 程序 时 ， 你 遇 到 最 多 的 问题 可 能 是 无 法 获得 消息 。 下 面 有 一 个 问题 
解决 路 线 图 ， 列 举 了 最 基本 的 出 错 原因 。 不 用 担心 其 中 的 某 些 术语 你 没有 见 过 ， 在 
后 面 的 几 章 里 都 会 讲 到 。 


ZMQ 指南 
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我 获取 不 到 数据 ! 





每 个 进程 只 调用 一 
次 zmq_init0。 








是 否 多 次 调用 了 
zmq_init07 


是 否 使 用 了 inproc 
a 
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ZeroMQ 基 础 


如 果 ZMQ 在 你 的 应 用 程序 中 扮演 非常 重要 的 角色 ， 那 你 可 能 就 需要 好 好 计划 一 下 
了 。 首 先 ， 创 建 一 个 原型 ， 用 以 测试 设计 方案 的 可 行 性 。 采 取 一 些 压力 测试 的 手 
段 ， 确 保 它 足够 的 健壮 。 其 次 ， 主 攻 测 试 代 码 ， 也 就 是 编写 测试 框架 ， 保 证 有 足够 
的 电力 供应 和 时 间 ， 来 进行 高 强度 的 测试 。 理 想 状态 下 ， 应 该 由 一 个 团队 编写 程 
序 ， 另 一 个 团队 负责 击 垮 它 。 最 后 ， 让 你 的 公司 及 时 联系 iMatix， 获 得 技术 上 的 支 
持 。 


简 而 言 之 ， 如 果 你 没有 足够 理由 说 明 设计 出 来 的 架构 能 够 在 现实 环境 中 运行 ， 那 么 
很 有 可 能 它 就 会 在 最 紧要 的 关头 崩溃 。 


敬告 : 你 的 想法 可 能 会 被 颠覆 ! 


传统 网 络 编程 的 一 个 规则 是 套 接 字 只 能 和 一 个 节点 建立 连接 。 虽 然 也 有 广播 的 协 

议 ， 但 毕竟 是 第 三 方 的 。 当 我 们 认定 “一 个 套 接 字 = 一 个 连接 ”的 时 候 ， 我 们 会 用 一 
些 特定 的 方式 来 扩展 应 用 程序 架构 : 我 们 为 每 一 块 还 辑 创 建 线程 ， 该 线程 独立 地 维 
护 一 个 套 接 字 。 


但 在 ZMQ 的 世界 里 ， 套 接 字 是 智能 的 、 多 线程 的 ， 能 够 自动 地 维护 一 组 完整 的 连 
接 。 你 无 法 看 到 它们 ， 甚 至 不 能 直接 操纵 这 些 连 接 。 当 你 进行 消息 的 收发 、 轮 询 等 
操作 时 ， 只 能 和 ZMQ 套 接 字 打交道 ， 而 不 是 连接 本 身 。 所 以 说 ，ZMQ 世 界 里 的 连 
接 是 私有 的 ， 不 对 外 部 开放 ， 这 也 是 ZMQ 多 于 扩展 的 原因 之 一 。 


由 于 你 的 代码 只 会 和 某 个 套 接 字 进 行 通 信 ， 这 样 就 可 以 处 理 任意 多 个 连接 ， 使 用 任 
意 一 种 网 络 协议 。 而 ZMQ 的 消息 模式 又 可 以 进行 更 为 廉价 和 便捷 的 扩展 。 


这 样 一 来 ， 传 统 的 思维 就 无 法 在 ZMQ 的 世界 里 应 用 了 。 在 你 阅读 示例 程序 代码 的 时 
候 ， 也 许 你 脑子 里 会 想方设法 地 将 这 些 代码 和 传统 的 网 络 编程 相关 联 : 当 你 读 到 “ 套 
接 字 " 的 时 候 ， 会 认为 它 就 表示 与 另 一 个 节点 的 连接 这 种 想法 是 错误 的 ; 当 你 读 
到 "线程" 时， 会 认为 它 是 与 另 一 个 节点 的 连接 这 也 是 错误 的 。 


如 果 你 是 第 一 次 阅读 本 指南 ， 使 用 ZMQ 进 行 了 一 两 天 的 开发 (或 者 更 长 ) ， 可 能 会 
觉得 疑惑 ，ZMQ 怎 么 会 让 事情 便 得 如 此 简单 。 你 再 次 尝试 用 以 往 的 思维 去 理解 
ZMQ， 但 又 无 功 而 返 。 最 后 ， 你 会 被 ZMQ 的 理念 所 折服 ， 拨 云 见 雾 ， 开 始 享受 
ZMQ 带 来 的 乐趣 。 








第 二 章 ZeroMQ3t Fr 


和 干 通信 模式 : 请 求 -应 答 模式 、 发 布 -订阅 模式 、 管 
td 一 章 我 们 将 学 习 更 多 在 实际 开发 中 会 使 用 到 的 东西 : 


本 章 涉及 的 内 容 有 : 


创建 和 使 用 ZMQ 套 接 字 

使 用 套 接 字 发 送 和 接收 消息 

使 用 ZMQ 提 供 的 异步 JO 套 接 字 构建 你 的 应 用 程序 
GUN EE DU MU ded 
恰当 地 处 理 致命 和 非 致 命 错误 

处 理 诸如 Ctrl- C 的 中 断 信 号 

检查 ZMQ 应 用 程序 的 内 存 泄 露 

发 送 和 接收 多 帧 消息 

在 网 络 中 转发 消息 

建立 简单 的 消息 队列 代理 

使 用 ZMQ 编 写 多 线程 应 用 程序 
使 用 ZMQ 在 线程 间 传 递 信号 

使 用 ZMQ 协 调 网 络 中 的 节点 

使 用 标识 创建 持久 化 套 接 字 

在 发 布 -订阅 模式 中 创建 和 使 用 消息 信封 
如 何 让 持久 化 的 订阅 者 能 够 从 前 溃 中 恢复 
4& A RE (HWM) 防止 内 存 溢出 


零 的 哲学 


BMQ 一 词 中 的 @ 让 我 们 纠结 了 很 久 。 一 方面 ， 这 个 特殊 字符 会 降低 ZMQ 在 谷歌 和 推 
特 中 的 收入 量 ; 另 一 方面 ， 这 会 惹恼 某 些 丹麦 语种 的 民族 ， 他 们 会 喧 道 困 并 不 是 一 
个 奇怪 的 0。 


x: uu ccc Ee 有 了 新 的 含义 : 零 管理 、 零 成 本 、 
零 浪 费 。 总 的 来 说 ， 零 表示 最 小 、 最 简 ， 这 是 贯穿 于 该 项 目的 哲理 。 我 们 致力 于 减 
少 复杂 程度 ， 提 高 易 用 性 。 


套 接 字 API 


说 实话 ，ZMQ 有 些 偷梁换柱 的 嫌疑 。 不 过 我 们 并 不 会 为 此 道歉 ， 因 为 这 种 概念 上 的 
切换 绝对 不 会 有 坏处 。ZMQ 提 供 了 一 2: ou cu cou 
理 机 制 的 细节 隐藏 了 起 来 ， 你 会 逐渐 适应 这 种 变化 ， 并 乐于 用 它 进行 编 程 。 


套 接 字 事实 上 是 用 于 网 络 编程 的 标准 接口 ，ZMQ 之 所 那么 吸引 人 眼球 ， 原 因 之 一 就 
是 它 是 建立 在 标准 套 接 字 API 之 上 。 因 此 ，ZMQ 的 套 接 字 操作 非常 容易 理解 ， 其 生 
命 周期 主要 包含 四 个 部 分 : 


创建 和 销毁 套 接 字 : zmq. socket(), zmq close() 

配置 和 读 取 套 接 字 选项 : zmq_setsockopt(), zmq getsockopt() 
为 套 接 字 建立 连接 : zmq_bind(), zmq_connect() 

发 送 和 接收 消息 : zmq_send(), zmq recv() 


如 以 下 C 代 码 


void *mousetrap; 


// Create socket for catching mice 
mousetrap = zmq socket (context, ZMQ PULL); 


// Configure the socket 
int64 t jawsize - 10000; 
zmq setsockopt (mousetrap, ZMQ HWM, &jawsize, sizeof jawsize); 


// Plug socket into mouse hole 
zmq connect (mousetrap, "tcp://192.168.55.221:5001"); 


// Wait for juicy mouse to arrive 
zmq msg t mouse; 

zmq msg init (&mouse); 

zmq recv (mousetrap, &mouse, 0); 
// Destroy the mouse 

zmq msg close (&mouse); 


// Destroy the socket 
zmq close (mousetrap); 


请 注意 ， 套 接 字 永 远 是 空 指针 类 型 的 ， 而 消息 则 是 一 个 数据 结构 (我 们 下 文 会 讲 
W) 。 所 以 ， 在 C 语 言 中 你 通过 变量 传递 套 接 字 ， 而 用 引用 传递 消息 。 记 住 一 点 ， 
在 ZMQ 中 所 有 的 套 接 字 都 是 由 ZMQ 管 理 的 ， 只 有 消息 是 由 程序 员 管 理 的 。 


创建 、 销 毁 、 以 及 配置 套 接 字 的 工作 和 处 理 一 个 对 象 差不多 ， 但 请 记 住 ZMQ 是 异步 
的 ， 伸 缩 性 很 强 ， 因 此 在 将 其 应 用 到 网 络 结构 中 时 ， 可 能 会 需要 多 一 些 时 间 来 理 
解 。 


使 用 套 接 字 构 建 拓扑 结构 


在 连接 两 个 节点 时 ， 其 中 一 个 需要 使 用 zmq_bind()， 另 一 个 则 使 用 
zmq_connect()。 通 常 来 讲 ， 使 用 zmq_bind() 连 接 的 节点 称 之 为 服务 端 ， 它 有 着 一 
个 较为 固定 的 网 络 地 址 ; 使 用 zmq_connect() 连 接 的 节点 称 为 客户 端 ， 其 地 址 不 国 
定 。 我 们 会 有 这 样 的 说 法 : 绑 定 套 接 字 至 端点 ; 连接 套 接 字 至 端点 。 端 点 指 的 是 某 
个 广 为 周 知 网 络 地 址 。 


ZMQ 连 接 和 传统 的 TCP 连 接 是 有 区 别 的 ， 主 要 有 : 


e 使 用 多 种 协议 ，inproc (进程 内 ) -ipc (进程 间 ) 、tcp、pgm (广播 ) ` 
epgm ; 


e 当 客 户 端 使 用 zmq_connect() 时 连接 就 已 经 建立 了 ， 并 不 要 求 该 端点 已 有 某 个 
服务 使 用 zmdqd_bind() 进 行 了 绑 定 ; 

连接 是 异步 的 ， 并 由 一 组 消息 队列 做 缓冲 ; 

连接 会 表现 出 某 种 消息 模式 ， 这 是 由 创建 连接 的 套 接 字 类 型 决定 的 ; 

一 个 套 接 字 可 以 有 多 个 输入 和 输出 连接 ; 

ZMQ 没 有 提供 类 似 zmq_accept() 的 函数 ， 因 为 当 套 接 字 绑 定 至 端点 时 它 就 自动 
开始 接受 连接 了 ; 

e 应 用 程序 无 法 直接 和 这 些 连接 打交道 ， 因 为 它们 是 被 封装 在 ZMQ 底 层 的 。 


在 很 多 架构 中 都 使 用 了 类 似 于 C/S 的 架构 。 服 务 端 组 件 式 比较 稳定 的 ， 而 客户 端 组 
件 则 较为 动态 ， 来 去 自如 。 所 以 说 ， 服 务 端 地 址 对 客户 端 而 言 往往 是 可 见 的 ， 反 之 
则 不 然 。 这 样 一 来 ， 架 构 中 应 该 将 哪些 组 件 作为 服务 端 (使 用 zmq_bind()) ， 哪 些 
作为 客户 端 (使 用 zmq_connect()) ， 就 很 明显 了 了。 同时， 这 需要 和 你 使 用 的 套 接 
字 类 型 相 联 系 起 来 ， 我 们 下 文 会 详细 讲述 。 


让 我 们 试想 一 下 ， 如 果 先 打开 了 客户 端 ， 后 打开 服务 端 ， 会 发 生 什 么 ? 传统 网 络 连 
接 中 ， 我 们 打开 客户 端 时 一 定 会 收 到 系统 的 报错 信息 ， 但 ZMQ 让 我 们 能 够 自由 地 局 
动 架构 中 的 组 件 。 当 客户 端 使 用 zmq_connect() 连 接 至 茶 个 端点 时 ， 它 就 已 经 能 够 
使 用 该 套 接 字 发 送 消息 了 。 如 果 这 时 ， 服 务 端 启动 起 来 了 ， 并 使 用 zmq_bind() 绑 定 
至 该 端点 ，ZMQ 将 自动 开始 转发 消息 。 


服务 端 节点 可 以 仅 使 用 一 个 套 接 字 就 能 绑 定 至 多 个 端点 。 也 就 是 说 ， 它 能 够 使 用 不 
同 的 协议 来 建立 连接 : 


zmq_bind (socket, "tcp://*:5555"); 
zmq bind (socket, "tcp://*:9999"); 
zmq bind (socket, "ipc://myserver.ipc"); 


当然 ， 你 不 能 多 次 绑 定 至 同一 端点 ， 这 样 是 会 报错 的 。 


每 当 有 客户 端 节 点 使 用 zmq_connect() 连 接 至 上 述 某 个 端点 时 ， 服 务 端 就 会 自动 创 
建 连接 。ZMQ 没 有 对 连接 数量 进行 限制 。 此 外 ， 客 户 端 节点 也 可 以 使 用 一 个 套 接 字 
同时 建立 多 个 连接 。 


大 多 数 情况 下 ， 哪 个 节点 充当 服务 端 ， 哪 个 作为 客户 端 ， 是 网 络 架构 层面 的 内 容 ， 
而 非 消息 流 问 题 。 不 过 也 有 一 些 特殊 情况 (如 失去 连接 后 的 消息 重 发 ) ， 同 一 种 套 
接 字 使 用 绑 定 和 连接 是 会 有 一 些 不 同 的 行为 的 。 


所 以 说 ， 当 我 们 在 设计 架构 时 ， 应 该 遵循 "服务 端 是 稳定 的 ， 客 户 端 是 灵活 的 " 原 
则 ， 这 样 就 不 太 会 出 错 。 


套 接 字 是 有 类 型 的 ， 套 接 字 类 型 定义 了 套 接 字 的 行为 ， 它 在 发 送 和 接收 消息 时 的 规 
则 等 。 你 可 以 将 不 同 种 类 的 套 接 字 进 行 连接 ， 如 PUB-SUB 组 合 ， 这 种 组 合 称 之 为 
发 布 -订阅 模式 ， 其 他 组 合 也 会 有 相应 的 模式 名 称 ， 我 们 会 在 下 文 详 述 。 

正 是 因为 套 接 字 可 以 使 用 不 同 的 方式 进行 连接 ， 才 构成 了 ZMQ 最 基本 的 消息 队列 系 
统 。 我 们 还 可 以 在 此 基础 之 上 建立 更 为 复杂 的 装置 、 路 由 机 制 等 ， 下 文 会 详 述 。 总 
的 来 说 ，ZMQ 为 你 提供 了 一 套 组 件 ， 供 你 在 网 络 架构 中 拼装 和 使 用 。 


使 用 套 接 字 传 递 数据 


发 送 和 接收 消息 使 用 的 是 zmq_send() 和 zmq_recv() 这 两 个 函数 。 虽 然 函 数 名 称 看 起 
来 很 直 白 ， 但 由 于 ZMQ 的 JJO 模 式 和 传统 的 TCP 协 议 有 很 大 不 同 ， 因 此 还 是 需要 花 
点 时 间 去 理解 的 。 
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Figure 1 一 TCP sockets are 1 to 1 
让 我 们 看 一 看 TCP 套 接 字 和 ZMQ 套 接 字 之 间 在 传输 数据 方面 的 区 别 : 


e ZMQ 套 接 字 传输 的 是 消息 ， 而 不 是 字 节 (TCP) 或 帧 (UDP) 。 消 息 指 的 是 一 
段 指定 长 度 的 二 进 制 数据 块 ， 我 们 下 文 会 讲 到 消息 ， 这 种 设计 是 为 了 性 能 优化 
而 考虑 的 ， 所 以 可 能 会 比较 难以 理解 。 

e ZMQ 套 接 字 在 后 台 进 行 |/O 操 作 ， 也 就 是 说 无 论 是 接收 还 是 发 送 消 息 ， 它 都 会 
先 传送 到 一 个 本 地 的 缓冲 队列 ， 这 个 内 存 队 列 的 大 小 是 可 以 配置 的 。 

e ZMQ 套 接 字 可 以 和 多 个 套 接 字 进 行 连接 (如 果 套 接 字 类 型 允许 的 话 ) 。TCP 协 
议 只 能 进行 点 对 点 的 连接 ， 而 ZMQ 则 可 以 进行 一 对 多 (类 似 于 无 线 广播 ) 、 多 
对 多 (类似 于 邮局 ) 、 多 对 一 (类似 于 信箱 ) ， 当 然 也 包括 一 对 一 的 情况 。 

e ZMQ 套 接 字 可 以 发 送 消息 给 多 个 端点 ( 扇 出 模型 ) ， 或 从 多 个 端点 中 接收 消息 

( 扇 入 模型 ) 
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Figure2 — OMQ sockets are N to N 


所 以 ， 向 套 接 字 写 入 一 个 消息 时 可 能 会 将 消息 发 送 给 很 多 节点 ， 相 应 的 ， 套 接 字 又 
会 从 所 有 已 建立 的 连接 中 接收 消息 。zmq_recv() 方 法 使 用 DA 平 队列 的 莫 法 来 决定 
接收 哪个 连接 的 消息 。 


调用 zmq_send() 方 法 时 其 实 并 没有 站 正 将 消息 发 送 给 台 套 接 字 连 接 。 消息 会 在 一 个 内 
存 队列 中 保存 下 来 ， 并 由 后 台 的 MO 线程 异步 地 进行 发 送 。 如 果 不 出 意外 情况 ， 这 一 
行为 是 非 阻 塞 的 。 所 以 说 ， UE iae ， 并 不 能 代表 消息 已 经 发 送 。 
当 你 在 用 zmd_msg init _ data() 初 始 化 消 息 后 ， 你 不 能 重用 或 是 释放 这 条 消息 ， 否 则 
ZMQ 的 I/O 线 程 会 认为 它 在 传输 垃圾 数据 。 这 对 初 du RUE M Hed 误 ， 下 
文 我 们 会 讲述 如 何 正 确 地 处 理 消 息 。 


单 播 传 输 


ZMQ 提 供 了 一 组 单 播 传输 协议 (inporc, ipc, tep) ， oo, (epgm, 
pgm) 。 厂 播 协议 是 比较 高 级 的 协议 ， 我 们 会 在 以 后 讲述 。 如 果 你 不 能 回答 我 扇 出 
比例 会 影响 一 对 多 的 单 播 传输 时 ， 就 先 不 要 去 学 习 广 播 协议 了 吧 。 


一 般 而 言 我 们 会 使 用 tcp 作 为 传输 协议 ， 这 种 TCP 连 接 是 可 以 脱 机 运作 的 ， 它 灵 
活 、 便 扒 、 且 足够 快速 。 为 什么 称 之 为 脱 机 , dc Cra NR gend 需要 该 端 
点 已 经 有 某 个 服务 进行 了 绑 定 ， 客 户 端 和 服务 端 可 以 随时 进行 连接 和 绑 定 ， 这 对 应 
用 程序 而 言 都 是 透明 的 。 


进程 问 协议， 即 ipc， 和 tcp 的 行为 差不多 ， 但 已 从 网 络 传输 中 抽象 出 来 ， 不 需要 指 

定 IP 地 址 或 者 域名 。 这 种 协议 很 多 时 候 会 很 方便 ， 本 指南 中 的 很 多 示例 都 会 使 用 这 
种 协议 。ZMQ 中 的 ipc 协 议 同 样 可 以 是 脱 机 的 ， 但 有 一 个 缺点 无 法 在 Windows 

操作 系统 上 运作 ， 这 一 点 也 许 会 在 未 来 的 ZMQ 版 本 中 修复 。 我 们 一 般 会 在 端点 名 称 
的 末尾 附 上 .ipc 的 扩展 名 ， 在 UNIX 系 统 上 ， 使 用 ipc 协 议 还 需要 注意 权限 问题 。 你 还 
需要 保证 所 有 的 程序 都 能 够 找到 这 个 ipc 端 点 。 


进程 内 协议 ， 即 inproc， 可 以 在 同一 个 进程 的 不 同 线程 之 问 进行 人 息 传输 ， 它 比 ipc 
或 tcp 要 ， 。 这 种 协议 有 一 个 要 求 ， 必 须 先 绑 定 到 端点 ， 才 能 建立 连接 ， 也 许 未 
来 也 会 修复 。 通 常 的 做 法 是 先 局 动 服务 端 线程 ， 绑 定 至 端点 ， 后 启动 客户 端 线程 ， 
连接 至 端点 。 





ZMQ 不 只 是 数据 传输 


c UNO ' 如何 使 用 ZMQ 建 立 一 项 服务 ? 我 能 使 用 ZMQ 建 立 一 个 HTTP 服 务 


他 们 期 望 得 到 的 回答 是 ， 我 们 用 普通 的 套 接 字 来 传输 HTTP 请 求 和 应 答 ， 那 用 ZMQ 
套 接 字 也 能 够 完成 这 个 任务 ， 且 能 运行 得 更 快 、 更 好 。 


只 可 惜 答案 并 不 是 这 样 的 。ZMQ 不 只 是 一 个 数据 传输 的 工具 ， 而 是 在 现 有 通信 协议 
之 上 建立 起 来 的 新 架构 。 它 的 数据 帧 和 现 有 的 协议 并 不 兼容 ， 如 下 面 是 一 个 HTTP 
请 求 和 ZMQ 请 求 的 对 比 ， 同 样 使 用 的 是 TCP/IPC 协 议 : 





GET /index.html 13 10 13 10 


Figure 3 — HTTP request 


HTTP 请 求 使 用 CR-LF (换行 符 ) 作为 信息 帧 的 间隔 ， 而 ZMQ 则 使 用 指定 长 度 来 定 
义 帧 : 
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Figure 4 一 0MQ request 


所 以 说 ， 你 的 确 是 可 以 用 ZMQ 来 号 一 个 类 似 于 HTTP 协 议 的 东西 ， 但 是 这 并 不 是 
HTTP ° 


不 过 ， 如 果 有 人 问 我 如 何 更 好 地 使 用 ZMQ 建 立 一 个 新 的 服务 ， 我 会 给 出 一 个 不 错 的 
答案 ， 那 就 是 : 你 可 以 自行 设计 一 种 通信 协议 ， 用 ZMQ 进 行 连 接 ， 使 用 不 同 的 语言 
提供 服务 和 扩展 ， 可 以 在 本 地 ， 亦 可 通过 远程 传输 。 赛 德 , 肖 的 Mongrel2 网 络 服务 
的 架构 就 是 一 个 很 好 的 示例 。 


IO 线程 


我 们 提 过 ZMQ 是 通过 后 台 的 MO 线程 进行 消息 传输 的 。 一 个 HMO 线 程 已 经 足以 处 理 多 
个 套 接 字 的 数据 传输 要 求 ， 当 然 ， 那 些 极端 的 应 用 程序 除外 。 这 也 就 是 我 们 在 创建 
上 下 文 时 传 入 的 1 所 代表 的 意思 : 


void *context = zmq init (1); 


ZMQ 应 用 程序 和 传统 应 用 程序 的 区 别 之 一 就 是 你 不 需要 为 每 个 套 接 字 都 创建 一 个 连 
接 。 单 个 ZMQ 套 接 字 可 以 处 理 所 有 的 发 送 和 接收 任务 。 如 ， 当 你 需要 向 一 千 个 订阅 
者 发 布 消息 时 ， 使 用 一 个 套 接 字 就 可 以 了 ; 当 你 需要 向 二 十 个 服务 进程 分 发 任务 
时 ， 使 用 一 个 套 接 字 就 可 以 了 ; 当 你 需要 从 一 千 个 网 页 应 用 程序 中 获取 数据 时 ， 也 
是 使 用 一 个 套 接 字 就 可 以 了 。 


这 一 特性 可 能 会 颠覆 网 络 应 用 程序 的 编写 步骤 ， 传 统 应 用 程序 每 个 进程 或 线程 会 有 
一 个 远程 连接 ， 它 又 只 能 处 理 一 个 套 接 字 。ZMQ 让 你 打破 这 种 结构 ， 使 用 一 个 线程 
来 完成 所 有 工作 ， 更 易于 扩展 。 


核心 消息 模式 


ZMQ 的 套 接 字 API 中 提供 了 多 种 消息 模式 。 如 果 你 熟悉 企业 级 消息 应 用 ， 那 这 些 模 
式 会 看 起 来 很 熟悉 。 不 过 对 于 新 手 来 说 ，ZMQ 的 套 接 字 还 是 会 让 人 大 吃 一 惊 的 。 


让 我 们 回顾 一 下 ZMQ 会 为 你 做 些 什 么 : 它 会 将 消息 快速 高 效 地 发 送 给 其 他 节点 ， 这 
里 的 节点 可 以 是 线程 、 进 程 、 或 是 其 他 计算 机 ; ZMQ 为 应 用 程序 提供 了 一 套 简单 的 
套 接 字 API， 不 用 考虑 实际 使 用 的 协议 类 型 (进程 内 、 进 程 间 、TPC、 或 广播 ) ; 
当 节 点 调动 时 ，ZMQ 会 自动 进行 连接 或 重 连 ; 无 论 是 发 送 消息 还 是 接收 消息 ， 
ZMQ 都 会 先 将 消息 放 入 队列 中 ， 并 保证 进程 不 会 因为 内 存 溢 出 而 前 溃 ， 适 时 地 将 消 
DEAE ; ZMQ 会 处 理 套 接 字 异常 ; 所 有 的 MO 操作 都 在 后 台 进 行 ; ZMQ 不 会 产 
生死 锁 。 


但 是 ， 以 上 种 种 的 前 提 是 用 户 能 够 正确 地 使 用 消息 模式 ， 这 种 模式 往往 也 体现 出 了 
ZMQ 的 智慧 。 消 息 模式 将 我 们 从 实践 中 获取 的 经 验 进 行 抽象 和 重组 ， 用 于 解决 之 后 
遇 到 的 所 有 问题 。ZMQ 的 消息 模式 目前 是 编译 在 类 库 中 的 ， 不 过 未 来 的 ZMQ 版 本 
可 能 会 允许 用 户 自 行 制定 消息 模式 。 


ZMQ 的 消息 模式 是 指 不 同类 型 套 接 字 的 组 合 。 换 句 话说 ， 要 理解 ZMQ 的 消息 模 
式 ， 你 需要 理解 ZMQ 的 套 接 字 类 型 ， 它 们 是 如 何 一 起 工作 的 。 这 一 部 分 是 需要 死记 
硬 背 的 。 


ZMQ 的 核心 消息 模式 有 : 


e 请 求 -应 答 模式 将 一 组 服务 端 和 一 组 客户 端 相连 ， 用 于 远程 过 程 调用 或 任务 分 
Ho 


e 发 布 -订阅 模式 将 一 组 发 布 者 和 一 组 订阅 者 相连 ， 用 于 数据 分 发 。 


e 管道 模式 使 用 启 入 或 扇 出 的 形式 组 装 多 个 节点 ， 可 以 产生 多 个 步骤 或 循环 ， 用 
于 构建 并 行 处 理 架 构 。 


我 们 在 第 一 章 中 已 经 讲述 了 这 些 模式 ， 不 过 还 有 一 种 模式 是 为 那些 仍然 认为 ZMQ 是 
类 似 TCP 那 样 点 对 点 连接 的 人 们 准备 的 : 


e 排他 对 接 模 式 将 两 个 套 接 字 一 对 一 地 连接 起 来 ， 这 种 模式 应 用 场景 很 少 ， 我 们 
会 在 本 章 最 末尾 看 到 一 个 示例 。 


zmq_socket() 函 数 的 说 明 页 中 有 对 所 有 消息 模式 的 说 明 ， 比 较 清 楚 ， 因 此 值得 研读 
几 次 。 我 们 会 介绍 每 种 消息 模式 的 内 容 和 应 用 场景 。 


以 下 是 合法 的 套 接 字 连 接 - 绑 定 对 〈 一 端 绑 定 、 一 端 连 接 即 可 ) 


PUB - SUB 

REQ - REP 

REQ - ROUTER 
DEALER - REP 
DEALER - ROUTER 
DEALER - DEALER 
ROUTER - ROUTER 
PUSH - PULL 

PAIR - PAIR 


其 他 的 组 合 模式 会 产生 不 可 预知 的 结果 ， 在 将 来 的 ZMQ 版 本 中 可 能 会 直接 返回 错 
误 。 你 也 可 以 通过 代码 去 了 解 这 些 套 接 字 类 型 的 行为 。 


上 层 消 息 模 式 


上 文中 的 四 种 核心 消息 模式 是 内 建 在 ZMQ 中 的 ， 他 们 是 API 的 一 部 分 ， 在 ZMQ 的 
C++ 核心 类 库 中 实现 ， 能 够 保证 正确 地 运行 。 如 果 有 朝 一 日 Linux 内 核 将 ZMQ 采 纳 
了 进来 ， 那 这 些 核 心 模式 也 肯定 会 包含 其 中 。 


在 这 些 消息 模式 之 上 ， 我 们 会 建立 更 为 上 层 的 消息 模式 。 这 种 模式 可 以 用 任何 语言 
编写 ， 他 们 不 属于 核心 类 型 的 一 部 分 ， 不 随 ZMQ 发 行 ， 只 在 你 自己 的 应 用 程序 中 出 
现 ， 或 者 在 ZMQ 社 区 中 维护 。 


本 指南 的 目的 之 一 就 是 为 你 提供 一 些 上 层 的 消息 模式 ， 有 简单 的 (如 何 正确 处 理 消 
息 ) ， 也 有 复杂 的 (可 靠 的 发 布 -订阅 模式 ) 。 


消息 的 使 用 方法 


ZMQ 的 传输 单位 是 消息 ， 即 一 个 二 进 制 块 。 你 可 以 使 用 任意 的 序列 化 工具 ， 如 谷歌 
的 Protocal Buffers、XDR、JSON 等 ， 将 内 容 转化 成 ZMQ 消 息 。 不 过 这 种 转化 工具 
最 好 是 便捷 和 快速 的 ， 这 个 请 自己 衡量 。 


在 内 存 中 ，ZMQ 消 息 由 zmq_msg_t 结 构 表 示 (每 种 语言 有 特定 的 表示 ) 。 在 C 语 言 
中 使 用 ZMQ 消 息 时 需要 注意 以 下 几 点 : 


e 你 需要 创建 和 传递 zmq_msg t 对 象 ， 而 不 是 一 组 数据 块 ; 

。 读 取消 息 时 ， 先 用 zmq_msg_init() 初 始 化 一 个 空 消 息 ， 再 将 其 传递 给 
zmq recv() A ; 

e 写 入 消息 时 ， 先 用 zmq_msg_init_size() 来 创建 消息 (同时 也 已 初始 化 了 一 块 内 
存 区 域 ) ， 然 后 用 memcpy() 函 数 将 信息 捞 贝 到 该 对 象 中 ， 最 后 传 给 
zmq_send() 遂 数 ; 

e 释放 消息 (并 不 是 销毁 ) 时 ， 使 用 zmq_msg_close() 辑 数 ， 它 会 将 对 消息 对 象 
的 引用 删除 ， 最 终 由 ZMQ 将 消息 销毁 ; 

e 获取 消息 内 容 时 需 使 用 zmq_msg _data() 函 数 ; 若 想 知道 消息 的 长 度 ， 可 以 使 
用 zmq_msg size():à A ; 

e $ fzmq msg move()^ zmq msg copy() ` zmq msg init _ data() 函 数 ， 在 充 
分 理解 手册 中 的 说 明之 前 ， 建 议 不 好 贸然 使 用 。 


以 下 是 一 段 处 理 消 息 的 典型 代码 ， 如 果 之 前 的 代码 你 有 看 的 话 ， 那 应 该 会 感到 熟 
悉 。 这 段 代码 其 实 是 从 zhelpers.h 文 件 中 抽出 的 : 


// ”从 套 接 字 中 获取 ZMQ 字 符 囊 ， RACHE Fi P 
Static char? 
S recv (void *socket) { 
zmq msg t message; 
zmq msg init (&message); 
zmq recv (socket, &message, 9); 
int size - zmq msg size (&message); 
char *string = malloc (size + 1); 
memcpy (string, zmq msg data (&message), size); 
zmq msg close (&message); 
string [size] = 0; 
return (string); 


j 


// ”将 C 语 言 字 符 串 转换 为 ZMQ 字 符 串 ， 并 发 送 给 套 接 字 
static int 
s.send (void *socket, char *string) f 
Et rc. 
zmg msg t message; 
zmq msg init size (&message, strlen (string)); 
memcpy (zmq msg data (&message), string, strlen (string)); 
rc - zmq send (socket, &message, 9); 
assert (!rc); 
zmq msg close (&message); 
return (rc); 


你 可 以 对 以 上 代码 进行 扩展 ， 让 其 支持 发 送 和 接受 任 一 长 度 的 数据 。 


需要 注意 的 是 ， 当 你 将 一 个 消息 对 象 传递 给 zmq_send() 函 数 后 ， RES 
会 被 清 零 ， 因 此 你 无 法 发 送 同一 个 消息 对 象 两 次 ， 也 无 法 获得 已 发 送 消息 的 内 容 。 


如 果 你 想 发 送 同一 个 消息 对 象 两 次 ， 就 需要 在 发 送 第 一 次 前 新 建 一 个 对 象 ， 使 用 
zmq_msg_copy() 函 数 进 行 找 贝 。 这 个 函数 不 会 描 贝 消息 内 容 ， 只 是 拷贝 引用 。 然 
后 你 就 可 以 再 次 发 送 这 个 消息 了 (或 者 任意 多 次 ， 只 要 进行 了 足够 的 拷贝 ) 。 当 消 
息 最 后 一 个 引用 被 释放 时 ， 消 息 对 象 就 会 被 销毁 。 


ZMQ 支 持 多 帧 消息 ， 即 在 一 条 消息 中 保存 多 个 消息 帧 。 这 在 实际 应 用 中 被 广泛 使 
用 ， 我 们 会 在 第 三 章 进行 讲解 。 


关于 消息 ， 还 有 一 些 需 要 注意 的 地 方 : 


ZMQ 的 消息 是 作为 一 个 整体 来 收发 的 ， 你 不 会 只 收 到 消息 的 一 部 分 ; 

ZMQ 不 会 立即 发 送 消息 ， 而 是 有 一 定 的 延迟 ; 

你 可 以 发 送 0 字 节 长 度 的 消息 ， 作 为 一 种 信号 ; 

消息 必须 能 够 在 内 存 中 保存 ， 如 果 你 想 发 送 文件 或 超 长 的 消息 ， 就 需要 将 他 们 
切割 成 小 块 ， 在 独立 的 消息 中 进行 发 送 ; 

e 必须 使 用 zmgq_msg _ close() 有 函数 来 关闭 消息 ， 但 在 一 些 会 在 变量 超出 作用 域 时 
自动 释放 消息 对 象 的 语言 中 除外 。 


再 重复 一 名， 不 要 贸然 使 用 zmq_msg init _ data() 函 数 。 它 是 用 于 零 捞 贝 ， 而 且 可 能 
会 造成 麻烦 。 关 于 ZMQ 还 有 太 多 东西 需要 你 去 学 习 ， 因 此 现在 暂时 不 用 去 考虑 如 何 
削减 几 微 秒 的 开销 。 


处 理 多 个 套 接 字 
在 之 前 的 示例 中 ， 主 程序 的 循环 体内 会 做 以 下 几 件 事 : 


2:0 OMNE 
处 理 消息 AS ; 
返回 第 一 步 。 


如 果 我 们 想 要 读 取 多 个 套 接 字 中 的 消息 呢 ? 最 简单 的 方法 是 将 套 接 字 连 接 到 多 个 端 
点 上 ， 让 ZMQ 使 用 公平 队列 的 机 制 来 接受 消息 。 如 果 不 同 端点 上 的 套 接 字 类 型 是 一 
致 的 ， 那 可 以 使 用 这 种 方法 。 但 是 ， 如 果 一 个 套 接 字 的 类 型 是 PULL ， 男 一 个 是 
PUB 怎么 办 ? 如 果 现 在 开始 混用 套 接 字 类 型 ， 那 将 来 就 没有 可 靠 性 可 言 了 。 


正确 的 方法 应 该 是 使 用 zmq_ poll() &&& ° Fou uU E poll() & X si — 4-1 
架 ， 编 写 一 个 事件 驱动 的 反应 器， 但 这 个 就 比较 复杂 了 ， 我 们 这 里 暂 不 讨论 。 


我 们 先 不 使 用 zmq_poll() ， 而 用 NOBLOCK ( 非 阻 塞 ) 的 方式 来 实现 从 多 个 套 接 字 
读 取 消息 的 功能 。 下 面 将 气象 信息 服务 和 并 行 处 理 这 两 个 示例 结合 起 来 : 


msreader: Multiple socket reader in C 





A 

// 从 多 个 套 接 字 中 获取 消息 

J MEE. 环 中 使 用 recv 哆 数 
7 


Zinclude "zhelpers.h" 


int main (void) 


1 
Wh 准备 上 下 文 和 套 接 5 F 


void *context = zmq init (1); 


// 连接 至 任务 分 发 器 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq_connect (receiver, "tcp://localhost:5557"); 


YN 连 接 至 天 服 务 

void *subscriber = zmq socket (context, ZMQ SUB); 

zmq connect (subscriber, "tcp://localhost:5556"); 

zmq setsockopt (subscriber, ZMQ SUBSCRIBE, "10001 ", 6); 


p a cd 接收 到 的 消息 


// 这 里 对 门 会 优先 处 理 从 任务 分 发 器 接收 到 的 消息 
while (1) { 

// 处 理 等 待 中 的 任务 

ime res 


For cro c go re 


zmq msg init (&task); 
if ((rc = zmq recv (receiver, &task, ZMQ NOBLOCK)) == ( 
} 


zmq msg close (&task); 


// ”处 理 等 待 中 的 气象 更 新 
for (rc - 0» "r6; ) 4 
zmq msg t update; 
zmq msg init (&update); 
if ((rc = zmq recv (subscriber, &update, ZMQ NOBLOCK)) 
// 处 理气 到 更 新 
} 
zmq msg close (&update); 
// 没有 消息 ， 等 待 1 毫秒 
s sleep (1); 
} . s 
// ”程序 不 会 运行 到 这 里 ， 但 还 是 做 正确 的 退出 清理 
zmq_close (receiver); 
zmq_close (subscriber); 
zmq term (context); 
return or 


(v 
m 
y 
( 
X 
1 
) 
- 





这 种 方式 的 缺点 之 一 是 ， 在 收 到 第 一 条 消息 之 前 会 有 1 毫秒 的 延迟 ， 这 在 高 压力 的 
程序 中 还 是 会 构成 问题 的 。 此 外 ， 你 还 需要 翻阅 诸如 nanosleep() 的 函数 ， 不 会 造成 
循环 次 数 的 激增 。 


示例 中 将 任务 分 发 器 的 优先 级 提升 了 ， 你 可 以 做 一 个 改进 ， 轮 流 处 理 消息 ， 正 如 
ZMQ 内 部 做 的 公平 队列 机 制 一 样 。 


下 面 ， 让 我 们 看 看 如 何 用 zmq_poll() 来 实现 同样 的 功能 : 


mspoller: Multiple socket poller in C 


"n 

// ”从 多 个 套 接 字 中 接收 消息 
// ”本 例 使 用 zmq_poll1( ) 函 数 
VM 

#include "zhelpers.h" 


int main (void) 


{ 
void *context = zmq_init (1); 
// 连接 任务 分 发 器 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq connect (receiver, "tcp://localhost:5557"); 
// 连接 气象 更 新 服务 
void *subscriber = zmq socket (context, ZMQ SUB); 
zmq connect (subscriber, "tcp://localhost:5556"); 
zmq setsockopt (subscriber, ZMQ SUBSCRIBE, "10001 ", 6); 
// 365165619 5 S 
zmq pollitem t items [] = ( 
( receiver, ©, ZMQ POLLIN, © Jj, 
{ subscriber, ©, ZMQ POLLIN, © ) 
// 处 理 来 自 两 个 套 接 字 的 消息 
while (1) { 
zmq msg t message; 
zmq poll (items, 2, -1); 
if (items [90].revents & ZMQ POLLIN) ( 
zmq msg init (&message); 
zmq recv (receiver, &message, 0); 
// 处 理 任 务 
zmq msg close (&message); 
if (items [i].revents & ZMQ POLLIN) { 
zmq msg init (&message); 
zmq recv (subscriber, &message, 9); 
// XRAY 
zmq msg close (&message); 
} 
} , 
// ”程序 不 会 运行 到 这 几 
zmq_close (receiver); 
zmq_close (subscriber); 
zmq term (context); 
return 0; 
} 


处 理 错 误 和 ETERM 信 号 


ZMQ 的 错误 处 理 机 制 提倡 的 是 快速 崩溃 。 我 们 认为 ， 一 个 进程 对 于 自身 内 部 的 错误 
来 说 要 越 脆 弱 越 好 ， 而 对 外 部 的 攻击 和 错误 要 足够 健壮 。 举 个 例子 ， 活 细胞 会 因 检 
测 到 自身 问题 而 瓦解 ， 但 对 外 界 的 攻击 却 能 极力 抵抗 。 在 ZMQ 编 程 中 ， 断 言 用 得 是 
非常 多 的 ， 如 同 细 胞 膜 一 样 。 如 果 我 们 无 法 确定 一 个 错误 是 来 自 于 内 部 还 是 外 部 ， 
那 这 就 是 一 个 设计 缺陷 了 ， 需 要 修复 。 


在 C 语 言 中 ， 断 言 失败 会 让 程序 立即 中 止 。 其 他 语言 中 可 以 使 用 异常 来 做 到 。 


当 ZMQ 检 测 到 来 自 外 部 的 问题 时 ， 它 会 返回 一 个 错误 给 调用 程序 。 如 果 ZMQ 不 能 
从 错误 中 恢复 ， 那 它 是 不 会 安静 地 将 消息 丢弃 的 。 某 些 情况 下 ，ZMQ 也 会 去 断言 外 
部 错误 ， 这 些 可 以 被 归结 为 BUG 。 


到 目前 为 止 ， 我 们 很 少 看 到 C 语 言 的 示例 中 有 对 错误 进行 处 理 。 现 实 中 的 代码 应 该 
对 每 一 次 的 ZMQ 函 数 调用 作 和 错误 处 理 。 如 果 你 不 是 使 用 C 语 言 进行 编程 ， 可 能 那 种 
语言 的 ZMQ 类 库 已 经 做 了 错误 处 理 。 但 在 Ci 语言 中 ， 你 需要 自己 动手 。 以 下 是 一 些 
常规 的 错误 处 理 手 段 ， 从 POSIX 规 范 开始 : 


创建 对 象 的 方法 如 果 失 败 了 会 返回 NULL ; 

其 他 方法 执行 成 功 时 会 返回 0， 失 败 时 会 返回 其 他 值 (一 般 是 -1) ; 
错误 代码 可 以 从 变量 errno 中 获得 ， 或 者 调用 zmq_errno() 子 数 ; 
错误 消息 可 以 调用 zmd _strerror() 函 数 获得 。 


有 两 种 情况 不 应 该 被 认为 是 错误 : 


e. 当 线 程 使 用 NOBLOCK 方 式 调用 zmq_recv() 时 ， 若 没有 接收 到 消息 ， 该 方法 会 
返回 -1， 并 设置 errno 为 EAGAIN ; 

e 当 线 程 调用 zmq _term() 时 ， 若 其 他 线程 正在 进行 阻塞 式 的 处 理 ， 该 函数 会 中 止 
所 有 的 处 理 ， 关 闭 套 接 字 ， 并 使 得 那些 阻塞 方法 的 返回 值 为 -1，errno 设 置 为 
ETERM ? 


遵循 以 上 规则 ， 你 就 可 以 在 ZMQ 程 序 中 使 用 断言 了 : 


void *context = zmq init (1); 

assert (context); 

void *socket - zmq socket (context, ZMQ REP); 
assert (socket); 


dnb rc. 
rc = zmq bind (socket, "tcp://*:5555"); 
assert (rc -- 0); 


第 一 版 的 程序 中 我 将 函数 调用 直接 放 在 了 assert() 函 数 里 面 ， 这 样 做 会 有 问题 ， 因 为 
一 些 优化 程序 会 直接 将 程序 中 的 assert() 函 数 去 除 。 


让 我 们 看 看 如 何 正 确 地 关闭 一 个 进程 ， 我 们 用 管道 模式 举例 。 当 我 们 在 后 人 台 开 局 了 
一 组 worker 时 ， 我 们 需要 在 任务 执行 完毕 后 关闭 它们 。 我 们 可 以 向 这 些 worker 发 送 
自杀 的 消息 ， 这 项 工作 由 结果 收集 器 来 完成 会 比较 恰当 。 

如 何 将 结果 收集 器 和 worker 相 连 呢 ? PUSH-PULL 套 接 字 是 单 向 的 。ZMQ 的 原则 

是 : 如 果 需 要 解决 一 个 新 的 问题 ， 就 该 使 用 新 的 套 接 字 。 这 里 我 们 使 用 发 布 -订阅 模 
式 来 发 送 自杀 的 消息 : 


结果 收集 器 创建 PUB 套 接 字 ， 并 连接 至 一 个 新 的 端点 ; 
worker SUB EE TREE 个 端点 i 
结果 收集 器 检测 到 任务 执行 完毕 时 ， 过 PUB 套 接 字 发 送 自杀 信号 ; 
OO 自杀 信号 后 便 会 中 止 。 


一 过 程 不 会 添加 太 多 的 代码 : 


void *control = zmq socket (context, ZMQ PUB); 
zmq_bind (control, "tcp://*:5559"); 


// Send kill signal to workers 

zmq msg init data (&message, "KILL", 5); 
zmq send (control, &message, 0); 

zmq msg close (&message); 
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Figure 5 一 Parallel Pipeline with Kill signaling 


下 面 是 Worker 进 程 的 代码 ， 它 会 打开 三 个 套 接 字 : 用 于 接收 任务 的 PULL、 用 于 发 
送 结 果 的 PUSH、 以 及 用 于 接收 自杀 信号 的 SUB， 使 用 zmq_poll() 进 行 轮 询 : 


taskwork2: Parallel task worker with kill signaling in C 


7 d 

// 管道 模式 - worker 设计 2 

// 添加 发 布 -订阅 消息 流 ， 用 以 接收 自杀 消息 
fd 

#include "zhelpers.h" 





int main (void) 


{ 


void *context = zmq init (1); 


// ”用 于 接收 消息 的 套 接 字 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq_connect (receiver, "tcp://localhost:5557"); 


// 用 户 发 送 消息 的 套 接 字 
void *sender = zmq socket (context, ZMQ PUSH); 
zmq connect (sender, "tcp://localhost:5558"); 


// 用 户 接收 控制 消息 的 套 接 字 

void *controller = zmq socket (context, ZMQ SUB); 
zmq connect (controller, "tcp://localhost:5559"); 
zmq setsockopt (controller, ZMQ SUBSCRIBE, "", 0); 


// ”处 理 接收 到 的 任务 或 控制 消息 

zmq pollitem t items [] = ( 
( receiver, ©, ZMQ POLLIN, © }, 
{ controller, ©, ZMQ POLLIN, © ) 


}; y 
// 处 理 消息 
while (1) { 


zmq msg t message; 

zmq poll (items, 2, -1); 

if (items [60].revents & ZMQ POLLIN) ( 
zmq msg init (&message); 
zmq recv (receiver, &message, 9); 


Mi ae 
s sleep (atoi ((char *) zmq msg data (&message))); 


// 发 送 结果 
zmq msg init (&message); 
zmq send (sender, &message, ©); 


// 简单 的 任务 进 图 指示 
prontr (2525) 
fflush (stdout); 


zmq msg close (&message); 


: 


// 任何 控制 命令 都 表示 目 杀 
if (items [i].revents & ZMQ POLLIN) 
break; //” 退 出 循环 


j 


zmq close (receiver); 
zmq close (sender); 

zmq close (controller); 
zmq term (context); 
returntor 


下 面 是 修改 后 的 结果 收集 器 代码 ， 在 收集 完结 果 后 向 所 有 Worker 发 送 自杀 消息 : 


tasksink2: Parallel task sink with kill signaling in C 


74 

// 管道 模式 - 结构 收集 器 设计 2 

// 添加 发 布 -订阅 消息 流 ， 用 以 向 worker 发 送 自杀 信号 
WM 

#include "zhelpers.h" 


int main (void) 


í 


void *context = zmq init (1); 


// 用 于 接收 消息 的 套 接 字 
void *receiver = zmq socket (context, ZMQ PULL); 
zmq bind (receiver, "tcp://*:5558"); 


// 用 以 发 送 控制 信息 的 套 接 字 
void *controller = zmq socket (context, ZMQ PUB); 
zmq bind (controller, "tcp://*:5559"); 


// 等 待 任务 开始 
char *string = s recv (receiver); 
free (string); 


// ”开始 计时 
int64 t start time = s clock (); 


// ”确认 100 个 任务 处 理 完毕 
int task_nbr; 
for (task nbr = 0; task nbr < 100; task nbr++) ( 
char *string = s recv (receiver); 
free (string); 
if ((task nbr / 10) * 10 -- task nbr) 
primeros 
else 
printi ys 
fflush (stdout); 


printf ("总 执行 时 间 ; 9d msecNn", 
(int) (s clock () - start time)); 


// 发 送 自杀 消息 给 worker 
s send (controller, "KILL"); 


I X 
sleep (1); // 等 待 发 送 完毕 


zmq close (receiver); 
zmq close (controller); 
zmq term (context); 

reet umso 


处 理 中 断 信 号 


现实 环境 中 ， 当 应 用 程序 收 到 Ctrl-C 或 其 他 诸如 ETERM 的 信号 MOERS LS 
理 和 退出 。 默 认 情 况 下 ， 这 一 信号 会 杀 掉 进 程 ， 意 味 着 尚未 发 送 的 消息 就 此 丢失 ， 
文件 不 能 被 正确 地 关闭 等 。 


在 C 语 言 中 我 们 是 这 样 处 理 消息 的 : 
interrupt: Handling Ctrl-C cleanly in C 


7 

// Shows how to handle Ctrl-C 
YN 

#include «zmq.h» 

#include <stdio.h> 

#include <signal.h> 


// 消息 处 理 


// 程序 开始 运行 时 调用 S_catch_signals() 有 函数 ; 
// 在 循环 中 判断 S_interrupted 有 是 否 为 1， 是 则 跳出 循环 : 
// ”很 适用 于 zmq_poll()。 


static int s interrupted = 0; 
static void s signal handler (int signal value) 


{ 
s interrupted = 1; 
} 
static void s catch signals (void) 
{ 
struct sigaction action; 
action.sa handler - s signal handler; 
action.sa flags - 9; 
sigemptyset (&action.sa mask); 
sigaction (SIGINT, &action, NULL); 
sigaction (SIGTERM, &action, NULL); 
} 


int main (void) 


void *context = zmq init (1); 
void *socket - zmq socket (context, ZMQ REP); 
zmq_bind (socket, "tcp://*:5555"); 


s catch signals (); 
while (1) ( 
// 阻塞 式 的 读 取 会 在 收 到 信号 时 停止 
zmq msg t message; 
zmq msg init (&message); 
zmq recv (socket, &message, 9); 


if (s interrupted) ( 
printf ("W: 5| TEDÀ E EPI... .Nn"); 
break; 


j 


zmq close (socket); 
zmq term (context); 
return 0; 








这 段 程序 使 用 s_catch_signals() 函 数 来 捕捉 像 Ctri-C(SIGINT) 和 SIGTERM 这 样 的 信 
号 。 收 到 任 一 信号 后 ， 该 函数 会 将 全 局 变量 s_interrupted 设 置 为 1。 你 的 程序 并 不 会 
自动 停止 ， 需 要 显 式 地 做 一 些 清理 和 退出 工作 。 


e 在 程序 开始 时 调用 s_catch_signals() 函 数 ， 用 来 进行 信号 捕 提 的 设置 ; 

e 如 果 程 序 在 zmq_recv()、zmq_poll()、zmq_send() 等 函数 中 阻塞 ， 当 有 信号 传 
来 时 ， 这 些 函 数 会 返回 EINTR ; 

e 像 9_recv() 这 样 的 函数 会 将 这 种 中 断 包 装 为 NULL 返 回 ; 

e 所 以 ， 你 的 应 用 程序 可 以 检查 是 否 有 EINTR 错 误 码 、 或 是 NULL 的 返回 、 或 者 
s interrupted € € € 67/1» 


如 果 以 下 代码 就 十 分 典型 : 


s catch signals (); 
client - zmq socket (...); 
while (!s interrupted) ( 
char *message - s recv (client); 
if (!message) 
break; I cm RYOeEELG 
} 


zmq_close (client); 


如 果 你 在 设置 s_catch_signals() 之 后 没有 进行 相应 的 处 理 ， 那 么 你 的 程序 将 对 Ctrl-C 
和 ETERM 免 疫 。 


4 Unas 


任何 长 时 间 运 行 的 程序 都 应 该 妥善 的 管理 内 存 ， 否 则 最 终 会 发 生 内 存 溢出 ， 导 致 程 
序 前 溃 。 如 果 你 所 使 用 的 编程 序言 会 自动 帮 你 完成 内 存 管理 ， 那 就 要 恭喜 你 了 。 但 
若 你 使 用 类 似 C/C++ 之 类 的 语言 时 ， 就 需要 自己 动手 进行 内 存 管理 了 。 下 面 会 介绍 
一 个 名 为 valgrind 的 工具 ， 可 以 用 它 来 报告 内 存 泄露 的 问题 。 


e。 在 Ubuntu 或 Debian 操 作 系 统 上 安装 valgrind : sudo apt-get install valgrind 


e 缺 省 情况 下 ，ZMQ 会 让 valgrind 不 停 地 报错 ， 想 要 屏蔽 警告 的 话 可 以 在 编译 
ZMQ 时 使 用 ZMQ _MAKE_VALGRIND_HAPPY 宏 选项 : 


$ cd zeromg2 

$ export CPPFLAGS--DZMQ MAKE VALGRIND HAPPY 
$ ./configure 

$ make clean; make 

$ sudo make install 


e 应 用 程序 应 该 正确 地 处 理 Ctrl|-C， 特 别 是 对 于 长 时 间 运 行 的 程序 (如 队列 装 
) ， 如 果 不 这 么 做 ，valgrind 会 报告 所 有 已 分 配 的 内 存 发 生 了 错误 。 


e 使 用 -DDEBUG 选 项 编译 程序 ， 这 样 可 以 让 valgrind 告 诉 你 具体 是 哪 段 代码 发 生 
了 内 存 溢出 。 


E 


e 最 后 ， 使 用 如 下 方法 运行 valgrind : 


E 


Es 


valgrind --tool=memcheck --leak-check-full someprog 


解决 完 所 有 的 问题 后 ， 你 会 看 到 以 下 信息 : 


==30536== ERROR SUMMARY: 0 errors from 0 contexts... 


多 帧 消息 


ZMQ 消 息 可 以 包含 多 个 帧 ， 这 在 实际 应 用 中 非常 常见 ， 特 别 是 那些 有 关 " 信 封 ? 的 应 
用 ， 我 们 下 文 会 谈 到 。 我 们 这 一 节 要 讲 的 是 如 何 正 确 地 收发 多 帧 消息 。 


多 帧 消息 的 每 一 帧 都 是 一 个 zmq_msg 结 构 ， 也 就 是 说 ， 当 你 在 收发 含有 五 个 帧 的 消 
息 时 ， 你 需要 处 理 五 个 zmq_msg 结 构 。 你 可 以 将 这 些 帧 放 入 一 个 数据 结构 中 ， 或 者 
直接 一 个 个 地 处 理 它 们 。 
下 面 的 代码 演示 如 何 发 送 多 帧 消息 : 

zmq send (socket, &message, ZMQ SNDMORE); 


zmq send (socket, &message, ZMQ SNDMORE); 


zmq send (socket, &message, 9); 


然后 我 们 看 看 如 何 接收 并 处 理 这 些 消息 ， 这 段 代码 对 单 帧 消息 和 多 帧 消息 都 适用 : 


while (1) { 
zmq msg t message; 
zmq msg init (&message); 
zmq recv (socket, &message, 9); 
// 处 理 一 帧 消息 
zmq msg close (&message); 
int64 t more; 
size t more size - sizeof (more); 
zmq getsockopt (socket, ZMQ RCVMORE, &more, &more size); 
if (!more) 
break; // 已 到 达 最 后 一 帧 


关于 多 帧 消息 ， 你 需要 了 解 的 还 有 : 


e 在 发 送 多 帧 消息 时 ， 只 有 当 最 后 一 帧 提交 发 送 了 ， 整 个 消息 才 会 被 发 送 ; 

如 果 使 用 了 zmq_poll() 驾 数 ， 当 收 到 了 消息 的 第 一 帧 时 ， 其 它 帧 其 实 也 已 经 收 
到 了 ; 

多 帧 消息 是 整体 传输 的 ， 不 会 只 收 到 一 部 分 ; 

多 帧 消息 的 每 一 帧 都 是 一 个 zmq_msg 结 构 ; 

无 论 你 是 否 检查 套 接 字 的 ZMQ_RCVMORE 选 项 ， 你 都 会 收 到 所 有 的 消息 ; 
发 送 时 ，ZMQ 会 将 开始 的 消息 帧 缓存 在 内 存 中 ， 直 到 收 到 最 后 一 帧 才 会 发 送 ; 
我 们 无 法 在 发 送 了 一 部 分 消息 后 取消 发 送 ， 只 能 关闭 该 套 接 字 。 


中 间 件 和 装置 


当 网 络 组 件 的 数量 较 少 时 ， 所 有 节点 都 知道 其 它 节 点 的 存在 。 但 随 着 节点 数量 的 增 
加 ， 这 种 结构 的 成 本 也 会 上 升 。 因 此 ， 我 们 需要 将 这 些 组 件 拆 分 成 更 小 的 模块 ， 使 
用 一 个 中 间 件 来 连接 它们 。 


这 种 结构 在 现实 世界 中 是 非常 常见 的 ， 我 们 的 社会 和 经 济 体 系 中 充满 了 中 间 件 的 机 
制 ， 用 以 降低 复杂 度 ， 压 缩 构建 大 型 网 络 的 成 本 。 中 间 件 也 会 被 称 为 批发 商 、 分 包 
商 、 管 理 者 等 等 。 

ZMQ 网 络 也 是 一 样 ， 如 果 规 模 不 断 增长 ， 就 一 定 会 需要 中 间 件 。ZMQ 中 ， 我 们 称 


其 为 “装置 "。 在 构建 ZMQ 软 件 的 初期 ， 我 们 会 画 出 几 个 节点 ， 然 后 将 它们 连接 起 
来 ， 不 使 用 中 间 件 : 


Figure6 — Small scale OMQ application 


随后 ， 我 们 对 这 个 结构 不 断 地 进行 扩充 ， 将 装置 放 到 特定 的 位 置 ， 进 一 步 增加 节点 
数量 : 





Figure7 一 Larger scale OMQ application 


ZMQ 装 置 没 有 具体 的 设计 规则 ， 但 一 般 会 有 一 组 “前端 "端点 和 一 组 "后 端 "端点 。 装 
置 是 无 状态 的 ， 因 此 可 以 被 广泛 地 部 署 在 网 络 中 。 你 可 以 在 进程 中 启动 一 个 线程 来 
运行 装置 ， 或 者 直接 在 一 个 进程 中 运行 装置 。ZMQ 内 部 也 提供 了 基本 的 装置 实现 可 
供 使 用 。 


ZMQ 装 置 可 以 用 作 路 由 和 寻 址 、 提 供 服务 、 队 列 调度 、 以 及 其 他 你 所 能 想到 的 事 
情 。 不 同 的 消息 模式 需要 用 到 不 同类 型 的 装置 来 构建 网 络 。 如 ， 请 求 -应 答 模 式 中 可 
以 使 用 队列 装置 、 抽 象 服 务 ; 发 布 -订阅 模式 中 则 可 使 用 流 装置 、 主 题 装 置 等 。 


ZMQ 装 置 比 起 其 他 中 间 件 的 优势 在 于 ， 你 可 以 将 它 放 在 网 络 中 任何 一 个 地 方 ， 完 成 
任何 你 想 要 的 事情 。 

发 布 -订阅 代理 服务 

我 们 经 常会 需要 将 发 布 -订阅 模式 扩充 到 不 同类 型 的 网 络 中 。 比 如 说 ， 有 一 组 订阅 者 
是 在 外 网 上 的 ， 我 们 想 用 广播 的 方式 发 布 消息 给 内 网 的 订阅 者 ， 而 用 TCP 协 议 发 送 
给 外 网 订阅 者 。 

我 们 要 做 的 就 是 写 一 个 简单 的 代理 服务 装置 ， 在 发 布 者 和 外 网 订阅 者 之 间 搭 起 桥 

梁 。 这 个 装置 有 两 个 端点 ， 一 端 连接 内 网 上 的 发 布 者 ， 另 一 端 连接 到 外 网 上 。 它 会 
从 发 布 者 处 接收 订阅 的 消息 ， 并 转发 给 外 网 上 的 订阅 者 们 。 


wuproxy: Weather update proxy in C 


Jn 
// 气象 信息 代理 服务 装置 
// 
#include "zhelpers.h" 


int main (void) 


{ 
void *context = zmq init (1); 
// 订阅 气象 信息 
void *frontend = zmqg socket (context, ZMQ SUB); 
zmq connect (frontend, "tcp://192.168.55.210:5556"); 
// 转发 气象 信息 
void *backend = zmq socket (context, ZMQ PUB); 
zmq bind (backend, "tcp://10.1.1.0:8100"); 
// 订阅 所 有 消息 
zmq setsockopt (frontend, ZMQ SUBSCRIBE, "", 0); 
// 转发 消息 
while (1) { 
while (1) { 
zmq msg t message; 
int64 t more; 
// ”处 理 所 有 的 消息 帧 
zmq msg init (&message); 
zmq recv (frontend, &message, 9); 
size t more size - sizeof (more); 
zmq getsockopt (frontend, ZMQ RCVMORE, &more, &more si: 
zmq send (backend, &message, more? ZMQ SNDMORE: 9); 
zmq msg close (&message); 
if (!more) 
break; // ”到 达 最 后 一 帧 
} 
} 
// ”程序 不 会 运行 到 这 里 ， 但 依然 要 正确 地 退出 
zmq_close (frontend); 
zmq close (backend); 
zmq term (context); 
return 0; 
} 





我 们 称 这 个 装置 为 代理 ， 因 为 它 既 是 订阅 者 ， 又 是 发 布 者 。 这 就 意味 着 ， 添 加 该 装 
置 时 不 需要 更 改 其 他 程序 的 代码 ， 只 需 让 外 网 订阅 者 知道 新 的 网 络 地 址 即 可 。 
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Figure8 — Forwarder proxy device 


可 以 注意 到 ， 这 段 程序 能 够 正确 处 理 多 帧 消息 ， 会 将 它 完 整 的 转发 给 订阅 者 。 如 果 
我 们 在 发 送 时 不 指定 ZMQ _SNDMORE 选 项 ， 那 么 下 游 节点 收 到 的 消息 就 可 能 是 破 
损 的 。 编 写 装置 时 应 该 要 保证 能 够 正确 地 处 理 多 帧 消息 ， 和 否则 会 造成 消息 的 丢失 。 


请 求 -应 答 代理 
下 面 让 我 们 在 请 求 -应 答 模 式 中 编写 一 个 小 型 的 消息 队列 代理 装置 。 


在 Hello World 客 户 / 服 务 模 型 中 ， 一 个 客户 端 和 一 个 服务 端 进行 通信 。 但 在 丨 实 环 
境 中 ， 我 们 会 需要 让 多 个 客户 端 和 多 个 服务 端 进行 通信 。 关 键 问 题 在 于 ， 服 务 端 应 
该 是 无 状态 的 ， 所 有 的 状态 都 应 该 包含 在 一 次 请 求 中 ， 或 者 存放 其 它 介 质 中 ， 如 数 
据 库 。 


我 们 有 两 种 方式 来 连接 多 个 客户 端 和 多 个 服务 端 。 第 一 种 是 让 客户 端 直接 和 多 个 服 
务 端 进行 连接 。 客 户 端 套 接 字 可 以 连接 至 多 个 服务 端 套 接 字 ， 它 所 发 送 的 请 求 会 通 
过 负载 均衡 的 方式 分 发 给 服务 端 。 比 如 说 ， 有 一 个 客户 端 连接 了 三 个 服务 端 ，A、 
B、C， 客 户 端 产生 了 R1、R2、R3、R4 四 个 请 求 ， 那 么 ，R1 和 R4 会 由 服务 A 处 
理 ，R2 由 B 处 理 ，R3 由 C 处 理 : 





Client - 


R1, R2, R3, R4 


"INS p n n 


Figure9 一 Load balancing of requests 


这 种 设计 的 好 处 在 于 可 以 方便 地 添加 客户 端 ， 但 若 要 添加 服务 端 ， il 就 得 导 修改 每 个 
客户 端的 配置 。 如 果 你 有 100 个 客户 端 ， 需 要 添加 三 个 服务 端 ， 那 么 这 些 客户 端 者 
需要 重新 进行 配置 ， 让 其 知道 新 服务 端的 存在 。 


这 种 方式 肯定 不 是 我 们 想 要 的 。 一 个 网 络 构 中 如 果 有 太 多 固化 的 模块 就 越 不 容易 
扩展 。 因 此 ， 我 们 需要 有 一 个 模块 位 于 客户 端 和 服务 端 之 间 ， 将 所 有 的 知识 都 汇聚 
到 这 个 网 络 拓扑 结构 中 。 S TUE > 我 们 可 以 任意 地 增 减 客户 端 或 是 服务 端 ， 不 
需要 更 改 任 何 组 件 的 配置 


下 面 就 让 我 们 编 Keim 这 个 代理 会 绑 定 到 两 个 端点 ， 前 端 端 点 供 客户 端 
后 端 端 端点 供 服务 端 连 接 。 它 会 使 用 zmq_poll() 来 轮 询 这 两 个 套 接 字 ， 接 收 消 
息 并 进 行 转发 。 装置 中 不 会 有 队列 的 存在 ， 因 为 ZMQ 已 经 自 动 在 套 接 字 中 完成 了 。 


REQ 和 REP 套 接 字 时 ， 其 请 求 -应 答 的 会 话 是 严格 同步 。 客 户 端 发 送 请 求 ， 
端 接 收 请 求 并 发 送 应 答 ， 由 容 户 端 接收 。 o 如果 客 户 端 或 服务 端 中 的 一 个 发 生 问 
Ec 连续 两 次 发 送 请 求 ) ， 程 序 就 会 报错 。 


但 是 ， 我 们 的 代理 装置 必须 要 是 非 阻塞 式 的 ， 虽 然 可 以 使 用 zmq_poll() 同 时 处 理 两 
个 套 接 字 ， 但 这 里 显然 不 能 使 用 REP 和 REQ 套 接 字 。 


幸运 的 是 ， 我 们 有 DEALER 和 ROUTER 套 接 字 可 以 胜任 这 项 工作 ， 进 行 非 阻塞 的 消 
息 收发 。 DEALER 过 去 被 称 为 XREQ，ROUTER 被 称 为 XREP， 但 新 的 代码 中 应 尽 
量 使 用 DEALER/ROUTER 这 种 名 称 。 “在 第 第 三 章 中 你 会 看 到 如 何 用 DEALER 和 
ROUTER 套 接 字 构建 不 同类 型 的 请 求 -应 答 模 式 。 


下 面 就 让 我 们 看 看 DEALER 和 ROUTER 套 接 字 是 怎样 在 装置 中 工作 的 。 


下 方 的 简 图 描述 了 一 个 请 求 -应 答 模 式 ，REQ 和 ROUTER 通 信 ，DEALER 再 和 REP 
通信 。ROUTER 和 DEALER 之 问 我 们 则 需要 进行 消息 转发 : 













ROUTER 
DEALER 


Figure 10 — Extended request reply 


请 求 -应 答 代理 会 将 两 个 套 接 字 分 别 绑 定 到 前 端 和 后 端 ， 供 客户 端 和 服务 端 套 接 字 连 


rrclient: Request-reply client in C 


// 
Mi 
// 
n 
// 


Hello world 客户 端 
连接 REQ 套 接 字 至 tcp://localhost:5559 端点 
发 送 Hel10 给 服务 端 等 待 World 应 答 


#include "zhelpers.h" 


int main (void) 


( 


void *context - zmq init (1); 


// 用 于 和 服务 端 通信 的 套 接 字 
void *requester = zmq socket (context, ZMQ REQ); 
zmq connect (requester, "tcp://localhost:5559"); 


int request nbr; 

for (request nbr = 0; request nbr !- 10; request nbr++) ( 
s send (requester, "Hello"); 
char *string = s recv (requester); 
printf (" 收 到 应 答 9d [*s]Nn", request nbr, string); 
free (string); 

} 

zmq close (requester); 

zmq term (context); 

rae tula Or 


下 面 是 服务 代码 : 


rrserver: Request-reply service in C 


YA 

// Hello world 服务 端 

// ”连接 REP 套 接 字 至 tcp://*:5560 端点 
// 接收 HelL1o 请 求 ， 返回 Mor1d 应 答 

/ / 

Zinclude "zhelpers.h" 


int main (void) 


t 
void *context - zmq init (1); 
// ”用 于 何 客 户 端 通信 的 套 接 字 
void *responder = zmq socket (context, ZMQ REP); 
zmq connect (responder, "tcp://localhost:5560"); 
while (1) { 
//. 3A 0 
char *string = s recv (responder); 
printf ("Received request: [9s]Nn", string); 
free (string); 
LJ cam p E 
sleep (1); 
// 返回 应 答 信息 
s send (responder, "World"); 
J 
// 程序 不 会 运行 到 这 里 ， 不 过 还 是 做 好 清理 工作 
zmq close (responder); 
zmq term (context); 
return 0; 
} 


最 后 是 代理 程序 ， 可 以 看 到 它 是 能 够 处 理 多 帧 消息 的 : 


rrbroker: Request-reply broker in C 


Z4 
// 简易 请 求 -应答 代 理 
M 


#include "zhelpers.h" 


int main (void) 
{ 
// 准备 上 下 文 和 套 接 字 
void *context = zmq init (1); 
void *frontend - zmq socket (context, ZMQ ROUTER); 


void *backend = zmqg socket (context, ZMQ DEALER); 
zmq bind (frontend, "tcp://*:5559"); 
zmq bind (backend,  "tcp://*:5560"); 


// ”初始 化 轮 询 集 合 

zmq pollitem t items [] = ( 
{ frontend, ©, ZMQ POLLIN, 9 }, 
( backend, ©, ZMQ POLLIN, 0 3 


}; 5 , 
// 在 套 接 字 间 转发 消息 
while (1) { 
zmq msg t message; 
int64 t more; // 检测 多 帧 消息 
zmq poll (items, 2, -1); 
if (items [60].revents & ZMQ POLLIN) (1 
while (1) { 
// ”处 理 所 有 消息 帧 
zmq msg init (&message); 
zmq recv (frontend, &message, 9); 
size t more size - sizeof (more); 
zmq getsockopt (frontend, ZMQ RCVMORE, &more, &mort 
zmq send (backend, &message, more? ZMQ SNDMORE: 9), 
zmq msg close (&message); 
if (!more) 
break; // 最 后 一 帧 
} 
} 
if (items [1i].revents & ZMQ POLLIN) ( 
while (1) { 
// ”处 理 所 有 消息 帧 
zmq msg init (&message); 
zmq recv (backend, &message, 0); 
size t more size - sizeof (more); 
zmq getsockopt (backend, ZMQ RCVMORE, &more, &more 
zmq send (frontend, &message, more? ZMQ SNDMORE: 9: 
zmq msg close (&message); 
if (!more) 
break; // ”最 后 一 帧 
} 
} 
} 


// ”程序 不 会 运行 到 这 里 ， 不 过 还 是 做 好 清理 工作 
zmq_close (frontend); 

zmq close (backend); 

zmq term (context); 

return 0; 








使 用 请 求 -应 答 代理 可 以 让 你 的 C/S 网 络 结构 更 易于 扩展 : 客户 端 不 知道 服务 端的 存 
在 ， 服 务 端 不 知道 客户 端的 存在 。 网 络 中 唯一 稳定 的 组 件 是 中 间 的 代理 装置 : 
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Figurell 一 Request reply broker 
d 
内 置 装置 


ZMQ 提 供 了 一 些 内 置 的 装置 ， 不 过 大 多 数 人 需要 自己 手动 编写 这 些 装 置 。 内 置 装 置 
有 : 


e QUEUE ， 可 用 作 请 求 -应 答 代 理 ; 
e FORWARDER ， 可 用 作 发 布 -订阅 代理 服务 ; 
e STREAMER ， 可 用 作 管 道 模式 代理 。 


可 以 使 用 zmq_device() 来 启动 一 个 装置 ， 需 要 传递 两 个 套 接 字 给 它 : 


zmq device (ZMQ QUEUE, frontend, backend); 


A * QUEUE 7] 就 如 同 在 网 络 中 加 入 了 一 个 请 求 - 应 答 代 理 ， 只 需 为 其 创建 已 绑 
定 或 连接 的 套 接 字 即 可 。 下 面 这 段 代码 是 使 用 内 置 装置 的 情形 : 


msgqueue: Message queue broker in C 





/ / 
Zinclude "zhelpers.h" 


int main (void) 


{ 
void *context = zmq_init (1); 
//| 客户 端 套 接 字 
void ‘frontend = zmq socket (context, ZMQ ROUTER); 
zmq bind (frontend, "tcp://*:5559"); 
// ”服务 端 套 接 字 
void *backend = zmq socket (context, ZMQ DEALER); 
zmq bind (backend, "tcp://*:5560"); 
// 启动 内 置 装置 
zmq_device (ZMQ QUEUE, frontend, backend); 
/ 1 f£ 万 > 不 会 ivy 4 行 : 到 | ix 8 时 
zmq close (frontend); 
zmq close (backend); 
zmq term (context); 
(PEUT). (8)5 
} 


es 
以 说 ， 当 你 能 够 在 程序 中 使 用 内 置 装置 的 时 候 就 尽量 用 吧 。 


可 能 你 会 像 茶 些 ZMQ 开 发 者 一 样 提 出 这 样 一 个 问题 : 如 果 我 将 其 他 类 型 的 套 接 字 传 
入 这 些 装 置 中 会 发 生 什么 ? 答案 是 : 别 这 么 做 。 你 可 以 随意 传 入 不 同类 型 的 套 接 
字 ， 但 是 执行 结果 会 非常 奇怪 。 所 以 ，QUEUE 装 置 应 使 用 ROUTER/DEALER 套 接 


y 


Z ` FORWARDER 5 4& FI SUB/PUB ` STREAMER Z f$ FJ PULL/PUSH 。 
当 你 需要 其 他 的 套 接 字 类 型 进行 组 合 时 ， 那 就 需要 自己 编写 装置 了 。 
ZMQ 多 线程 编程 


使 用 ZMQ 进 行 多 线程 编程 (MT 编程 ) 将 会 是 一 种 享受 。 在 多 线程 中 使 用 ZMQ 套 接 
字 时 ， 你 不 需要 考虑 额外 的 东西 ， 让 它们 自如 地 运作 就 好 。 


使 用 ZMQ 进 行 多 线程 编程 时 ， 不 需要 考虑 互 斥 、 锁 、 或 其 他 并 发 程序 中 要 考虑 的 因 
素 ， 你 唯一 要 关心 的 仅仅 是 线程 之 间 的 消息 。 


什么 叫 “ 完 美的 多 线程 编程 ， 指 的 是 代码 易 写 易 读 ， 可 以 跨 系统 、 跨 语言 地 使 用 同 
一 种 技术 ， 能 够 在 任意 颗 核心 的 计算 机 上 运行 ， 没 有 状态 ， 没 有 速度 的 瓶颈 。 


如 果 你 有 多 年 的 多 线程 编程 经 验 ， 知 道 如 何 使 用 锁 、 人 信号灯、 临界 区 等 机 制 来 使 代 
码 运 行 得 正确 (尚未 考虑 快速 ) ， 那 你 可 能 会 很 肖 立 ， 因 为 ZMQ 将 改变 这 一 切 。 三 
十 多 年 来 ， 并 发 式 应 用 程序 开发 所 总 结 的 经 验 是 : 不 要 共享 状态 。 这 就 好 上 比 两 个 醇 
汉 想 要 分 享 一 杯 啤 酒 ， 如 果 他 们 不 是 铁 哥 们 儿 ， 那 他 们 很 快 就 会 打 起 来 。 当 有 更 多 
的 醉 汉 加 入 时 ， 情 况 就 会 更 糟 。 多 线程 编程 有 时 就 像 醇 汉 抢 夺 啤 酒 那样 粮 糕 。 


进行 多 线程 编程 往往 是 痛苦 的 ， 当 程序 因为 压力 过 大 而 崩溃 时 ， 你 会 不 知 所 然 。 有 
人 写 过 一 篇 《多 线程 代码 中 的 11 个 错误 易 发 点 》 的 文章 ， 在 大 公司 中 广 为 流 传 ， 列 
举 其 中 的 几 项 : 没有 进行 同步 、 错 误 的 粒度 、 读 写 分 离 、 无 锁 排 序 、 锁 传递 、 优 先 
级 冲突 等 。 


假设 某 一 天 的 下 年 三 点 ， 当 证 券 市 场 正 交 易 得 如 火 如 从 的 时 候 ， 突 然 之 间 ， 应 用 程 
序 因 为 锁 的 问题 前 溃 了 ， 那 将 会 是 何等 的 场景 ?所 以 ， 作 为 程序 员 的 我 们 ， 为 解决 
那些 复杂 的 多 线程 问题 ， 只 能 用 上 更 复杂 的 编程 机 制 。 


有 人 曾 这 样 比 喻 ， 那 些 多 线程 程序 原本 应 作为 大 型 公司 的 核心 支柱 ， 但 往往 又 最 容 
多 出 错 ; 那些 想 要 通过 网 络 不 断 进行 延伸 的 产品 ， 最 后 总 以 失败 告终 。 


如 何 用 ZMQ 进 行 多 线程 编程 ， 以 下 是 一 些 规则 : 


e. 不 要 在 不 同 的 线程 之 间 访 问 同一 份 数据 ， 如 果 要 用 到 传统 编程 中 的 互 斥 机 制 ， 
那 就 有 违 ZMQ 的 思想 了 。 唯 一 的 例外 是 ZMQ 上 下 文 对 象 ， 它 是 线程 安全 的 。 


e. 必须 为 进程 创建 ZMQ 上 下 文 ， 并 将 其 传递 给 所 有 你 需要 使 用 inproc 协 议 进行 通 
信 的 线程 ; 


o 你 可 以 将 线程 作为 单独 的 任务 来 对 待 ， 使 用 自己 的 上 下 文 ， 但 是 这 些 线程 之 间 
就 不 能 使 用 inproc 协 议 进 行 通 信 了 。 这 样 做 的 好 处 是 可 以 在 日 后 方便 地 将 程序 
拆 分 为 不 同 的 进程 来 运行 。 


e 不 要 在 不 同 的 线程 之 间 传 递 套 接 字 对 象 ， 这 些 对 象 不 是 线程 安全 的 。 从 技术 上 
来 说 ， 你 是 可 以 这 样 做 的 ， 但 是 会 用 到 互 斥 和 锁 的 机 制 ， 这 会 让 你 的 应 用 程序 
变 得 缓慢 和 脆弱 。 唯 一 合理 的 情形 是 ， 在 某 些 语 言 的 ZMQ 类 库 内 部 ， 需 要 使 用 
垃圾 回收 机 制 ， 这 时 可 能 会 进行 套 接 字 对 象 的 传递 。 


当 你 需要 在 应 用 程序 中 使 用 两 个 装置 时 ， 可 能 会 将 套 接 字 对 象 从 一 个 线程 传递 给 另 
一 个 线程 ， 这 样 做 一 开始 可 能 会 成 功 ， 但 最 后 一 定 会 随机 地 发 生 错 误 。 所 以 说 ， 应 
在 同一 个 线程 中 打开 和 关闭 套 接 字 。 


如 果 你 能 遵循 上 面 的 规则 ， 就 会 发 现 多 线程 程序 可 以 很 容易 地 拆 分 成 多 个 进程 。 程 
序 逻 辑 可 以 在 线程 、 进 程 、 或 是 计算 机 中 运行 ， 根 据 你 的 需求 进行 部 署 即 可 。 


ZMQ 使 用 的 是 系统 原生 的 线程 机 制 ， 而 不 是 某 种 “绿色 线程 "。 这样 做 的 好 处 是 你 不 
需要 学 习 新 的 多 线程 编程 AP|， 而 且 可 以 和 目标 操作 系统 进行 很 好 的 结合 。 你 可 以 
使 用 类 似 英特尔 的 ThreadChecker 工 具 来 查看 线程 工作 的 情况 。 缺 点 在 于 ， 如 果 程 
序 创建 了 太 多 的 线程 (如 上 千 个 ) ， 则 可 能 导致 操作 系统 负载 过 高 。 


下 面 我 们 举 一 个 实例 ， 让 原来 的 Hello World 服 务 变 得 更 为 强大 。 原 来 的 服务 是 单线 
程 的 ， 如 果 请 求 较 少 ， 自 然 没 有 问题 。ZMQ 的 线程 可 以 在 一 个 核心 上 高 速 地 运行 ， 
执行 大 量 的 工作 。 但 是 ， 如 果 有 一 万 次 请 求 同 时 发 送 过 来 会 怎么 样 ? 因 此， 现实 环 
境 中 ， 我 们 会 启动 多 个 worker 线 程 ， 他 们 会 尽 可 能 地 接收 客户 端 请 求 ， 处 理 并 返回 


当然 ， 我 们 可 以 使 用 启动 多 个 worker 进 程 的 方式 来 实现 ， 但 是 启动 一 个 进程 总 比 局 
动 多 个 进程 要 来 的 方便 且 易 于 管理 。 而 有 全 ， 作 为 线程 启动 的 worker， 所 占用 的 带宽 
会 比较 少 ， 延 迟 也 会 较 低 。 以 下 是 多 线程 版 的 Hello World 服 务 : 


mtserver: Multithreaded service in C 


// 多 线程 版 Hel1o World 服 务 


Zinclude "zhelpers.h" 
Zinclude «pthread.h-» 


static void * 

worker routine (void *context) { 
// ”连接 至 代理 的 套 接 字 
void *receiver = zmq socket (context, ZMQ REP); 
zmq connect (receiver, "inproc://workers"); 


while (1) { 
char *string - s recv (receiver); 
printf ("Received request: [%s]\n", string); 
free (string); 
My EM 
sleep (1); 
// ”返回 应 答 
s_send (receiver, "World"); 
} 
zmq close (receiver); 
return NULL; 


int main (void) 
void *context = zmq init (1); 


// ”用 于 和 client 进 行 通信 的 套 接 字 
void *clients = zmq socket (context, ZMQ ROUTER); 
zmq_bind (clients, "tcp://*:5555"); 


// ”用 于 和 worker 进 行 通信 的 套 接 字 
void *workers = zmq socket (context, ZMQ DEALER); 
zmq bind (workers, "inproc://workers"); 


// ”启动 一 个 worker 池 
int thread nbr; 
for (thread nbr = 0; thread nbr < 5; thread nbr++) ( 


pthread t worker; 


pthread create (&worker, NULL, worker routine, context); 


ff 户 
Wd a 


zmq device (ZMQ QUEUE, clients, workers); 


// ”程序 不 会 运行 到 这 里 ， 但 仍 进行 清理 工作 
zmq close (clients); 
zmq close (workers); 
zmq term (context); 


return o» 


PMA 85 4X8 EL dA AR CUZEAR RA T: 

e 服务 端 启动 一 组 worker 线 程 ， 每 个 worker 创 建 一 个 REP 套 接 字 ， 并 处 理 收 到 的 
请 求 。worker 线 程 就 像 是 一 个 单线 程 的 服务 ， 唯 一 的 区 别 是 使 用 了 inproc 而 非 
tcp 协 议 ， 以 及 绑 定 -连接 的 方向 调换 了 。 

e 服务 端 创建 ROUTER 套 接 字 用 以 和 client 通 信 ， 因 此 提供 了 一 个 TCP 协 议 的 外 
部 接口 。 

e. 服务 端 创 建 DEALER 套 接 字 用 以 和 worker 通 信 ， 使 用 了 内 部 接口 (inproc) ° 

e 服务 端 语 动 了 QUEUE 内 部 装置 ， 连 接 两 个 端点 上 的 套 接 字 。QUEUE 装 置 会 将 
收 到 的 请 求 分 发 给 连接 上 的 worker， 并 将 应 答 路 由 给 请 求 方 。 

需要 注意 的 是 ， 在 某 些 编程 语言 中 ， 创 建 线程 并 不 是 特别 方便 ，POSIX 提 供 的 类 库 
是 pthreads， 但 Windows 中 就 需要 使 用 不 同 的 API 了 。 我 们 会 在 第 三 章 中 讲述 如 何 
包装 一 个 多 线程 编程 的 API 。 

示例 中 的 “工作 "仅仅 是 1 秒 钟 的 停留 ， 我 们 可 以 在 worker 中 进行 任意 的 操作 ， 包 括 与 
其 他 节点 进行 通信 。 消 息 的 流向 是 这 样 的 : REQ-ROUTER-queue-DEALER- 
REP ° 
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Figure 12 — Multithreaded server 


线程 间 的 信号 传输 

当 你 刚 开始 使 用 ZMQ 进 行 多 线程 编程 时 ， 你 可 能 会 问 : 要 如 何 协调 两 个 线程 的 工作 
呢 ? 可 能 会 想 要 使 用 sleep() 这 样 的 方法 ， 或 者 使 用 诸如 信号 、 互 斥 等 机 制 。 事 实 
上 ， 你 唯一 要 用 的 就 是 ZMQ 木 身 。 回 忆 一 下 那个 醉 汉 抢 啤 酒 的 例子 吧 。 


下 面 的 示例 演示 了 三 个 线程 之 间 需 要 如 何 进行 同步 : 





Step 1 





Ready! 
PAIR 
Ready! 
Figure 13 — The Relay Race 


我 们 使 用 PAIR 套 接 字 和 inproc 协 议 。 
mtrelay: Multithreaded relay in C 


Zinclude "zhelpers.h" 
4include «pthread.h-» 


static void * 
Stepi (void *context) f 
//. 连接 至 步骤 2， 告 知 我 已 就 绪 
void *xmitter = zmq socket (context, ZMQ PAIR); 
zmq connect (xmitter, "inproc://step2"); 
printf (" 步 骤 1 就 绪 ， 正 在 通知 步骤 2.Nn'" ) ) 
s send (xmitter, "READY"); 
zmq close (xmitter); 


return NULL; 
} 


static void * 
Step2 (void *context) f 
// 局 动 步 骤 1 前 线 绑 定 至 inproc 套 接 字 
void *receiver = zmq socket (context, ZMQ PAIR); 


int 


zmq bind (receiver, "inproc://step2"); 
pthread t thread; 
pthread create (&thread, NULL, stepi, context); 


// 等 待 信号 

char *string = s recv (receiver); 
free (string); 

zmq close (receiver); 


// ”连接 至 步骤 3， 告 知 我 已 就 绪 

void *xmitter = zmq socket (context, ZMQ PAIR); 
zmq connect (xmitter, "inproc://step3"); 

printf ("步骤 2 就 绪 ， 正 在 通知 步骤 3......\n")， 

s send (xmitter, "READY"); 

zmq close (xmitter); 


return NULL; 


main (void) 
void *context - zmq init (1); 


// ”启动 步骤 2 前 线 绑 定 至 inproc 套 接 字 

void *receiver = zmq socket (context, ZMQ PAIR); 
zmq bind (receiver, "inproc://step3"); 

pthread t thread; 

pthread create (&thread, NULL, step2, context); 


//| 等 待 信号 

char *string = s recv (receiver); 
free (string); 

zmq close (receiver); 


printf ("测试 成 功 ! \n")， 
zmq_term (context); 
returnto; 


这 是 一 个 ZMQ 多 线程 编程 的 典型 示例 : 


1. 两 个 线程 通过 inproc 协 议 进 行 通信 ， 使 用 同一 个 上 下 文 ; 

2. 父 线程 创建 一 个 套 接 字 ， 绑 定 至 inproc:// 端 点 ， 然 后 再 启动 子 线程 ， 将 上 下 文 
对 象 传递 给 它 ; 

3. 子 线程 创 建 第 二 个 套 接 字 ， 连 接 至 inproc:// 端 点 ， 然 后 发 送 已 就 绪 信 号 给 父 线 
程 。 


需要 注意 的 是 ， 这 上 段 代码 无 法 扩展 到 多 个 进程 之 问 的 协调 。 如 果 你 使 用 inproc 协 
议 ， 只 能 建立 结构 非常 紧密 的 应 用 程序 。 在 延迟 时 间 必 须 严 格 控制 的 情况 下 可 以 使 
用 这 种 方法 。 对 其 他 应 用 程序 来 说 ， 每 个 线程 使 用 同一 个 上 下 文 ， 协 议 选 用 ipc 或 
tcp。 然 后 ， 你 就 可 以 自由 地 将 应 用 程序 拆 分 为 多 个 进程 甚至 是 多 台 计 算 机 了 。 


这 是 我 们 第 一 次 使 用 PAIR 套 接 字 。 为 什么 要 使 用 PAIR? 其 他 类 型 的 套 接 字 也 可 以 
使 用 ， 但 都 有 一 些 缺 点 会 影响 到 线程 间 的 通信 : 


e 你 可 以 让 信号 发 送 方 使 用 PUSH， 接 收 方 使 用 PULL， 这 看 上 去 可 能 可 以 ， 但 是 
需要 注意 的 是 ，PUSH 套 接 字 发 送 消 息 时 会 进行 负载 均衡 ， 如 果 你 不 小 心 开启 
了 两 个 接收 方 ， 就 会 “丢失 ”一 半 的 信号 。 而 PAIR 套 接 字 建 立 的 是 一 对 一 的 连 
接 ， 具 有 排他 性 。 


e 可 以 让 发 送 方 使 用 DEALER， 接 收 方 使 用 ROUTER。 但 是 ，ROUTER 套 接 字 
会 在 消息 的 外 层 包 衰 一 个 来 源 地 址 ， 这 样 一 来 原本 零 字 节 的 信号 就 可 能 要 成 为 
一 个 多 段 消息 了 。 如 果 你 不 在 乎 这 个 问题 ， 并 且 不 会 重复 读 取 那个 套 接 字 ， 自 
然 可 以 使 用 这 种 方法 。 但 是 ， 如 果 你 想 要 使 用 这 个 套 接 字 接 收 申 正 的 数据 ， 你 
就 会 发 现 ROUTER 提 供 的 消息 是 错误 的 。 至 于 DEALER 套 接 字 ， 它 同样 有 负载 
均衡 的 机 制 ， 和 PUSH 套 接 字 有 相同 的 风险 。 

e 可 以 让 发 送 方 使 用 PUB， 接 收 方 使 用 SUB。 一 来 消息 可 以 照 原样 发 送 ， 二 来 
PUB 套 接 字 不 会 进行 负载 均衡 。 但 是 ， 你 需要 对 SUB 套 接 字 设 置 一 个 空 的 订阅 
信息 (用 以 接收 所 有 消息 ) ; 而 有 全 ， 如 果 SUB 套 接 字 没有 及 时 和 PUB 建立 连 
接 ， 消 息 很 有 可 能 会 丢失 。 


综 上 ， 使 用 PAIR 套 接 字 进 行 线程 间 的 协调 是 最 合适 的 。 
节点 协调 
当 你 想 要 对 节点 进行 协调 时 ，PAIR 套 接 字 就 不 怎么 合适 了 ， 这 也 是 线程 和 节点 之 间 


的 不 同 之 处 。 一 般 来 说 ， 节 点 是 来 去 自由 的 ， 而 线程 则 较为 稳定 。 使 用 PAIR 套 接 字 
时 ， 若 远程 节点 断 开 连接 后 又 进行 重 连 ，PAIR 不 会 子 以 理会 。 


第 二 个 区 别 在 于 ， 线 程 的 数量 一 般 是 固定 的 ， 而 节点 数量 则 会 经 常 变化 。 让 我 们 以 
气象 信息 模型 为 基础 ， 看 看 要 怎样 进行 节点 的 协调 ， 以 保证 客户 端 不 会 丢失 最 开始 


的 那些 消息 。 

下 面 是 程序 运行 逻辑 : 

e 发 布 者 知道 预期 的 订阅 者 数量 ， 这 个 数字 可 以 任意 指定 ; 

e 发 布 者 启动 后 会 先 等 待 所 有 订阅 者 进行 连接 ， 也 就 是 节点 协调 。 每 个 订阅 者 会 
使 用 另 一 个 套 接 字 来 告知 发 布 者 自己 已 就 绪 ; 

e 当 所 有 订阅 者 准备 就 绪 后 ， 发 布 者 才 开 始 发 送 消息 。 

这 里 我 们 会 使 用 REQ-REP 套 接 字 来 同步 发 布 者 和 订阅 者 。 发 布 者 的 代码 如 下 : 


syncpub: Synchronized publisher in C 


Jn 

// 发 布 者 - 同步 版 

// 

#include "zhelpers.h" 


// 等待 10 个 订阅 者 连接 
#define SUBSCRIBERS EXPECTED 10 


int main (void) 


( 


void *context - zmq init (1); 


// ”用 于 和 客户 端 通信 的 套 接 字 
void *publisher = zmq socket (context, ZMQ PUB); 
zmq bind (publisher, "tcp://*:5561"); 


// 用 于 接收 信号 的 套 接 字 
void *syncservice = zmq socket (context, ZMQ REP); 
zmq bind (syncservice, "tcp://*:5562"); 


// 接收 订阅 者 的 就 绪 信和 号 

printf ("3EZE S RET P AE SEAAN n") ; 

int subscribers - 0; 

while (subscribers < SUBSCRIBERS EXPECTED) { 
// - 等 待 就 绪 信 息 
char *string = s recv (syncservice); 
free (string); 
// - 发 送 应 答 
s send (syncservice, '""); 
subscribers--; 

} 

// ”开始 发 送 100 万 条 数据 

printf (CEE E AENDA); 

int update_nbr; 

for (update nbr = 0; update nbr < 1000000; update_nbr++) 
s send (publisher, "Rhubarb"); 


s send (publisher, "END"); 


zmq close (publisher); 
zmq close (syncservice); 
zmq term (context); 

ret umi 





Publisher 





Figure 14 — Pub Sub Synchronization 
以 下 是 订阅 者 的 代码 : 


syncsub: Synchronized subscriber in C 


Jn 

// 订阅 者 - 同步 版 

// 

#include "zhelpers.h" 


int main (void) 


( 


void *context - zmq init (1); 


// 一、 连接 SUB 套 接 字 

void *subscriber = zmq socket (context, ZMQ SUB); 
zmq connect (subscriber, "tcp://localhost:5561"); 
zmq setsockopt (subscriber, ZMQ SUBSCRIBE, "", 0); 


// ZART > RATER — A JL... 
sleep (1); 


// 三、 与 发 布 者 进行 同步 
void *syncclient = zmq socket (context, ZMQ REQ); 
zmq connect (syncclient, "tcp://localhost:5562"); 


// - 发 送 请 求 
s send (syncclient, ""); 


/ - 等 待 应 答 
char *string = s recv (syncclient); 
free (string); 


// EoRESEA 
int update nbr - 0; 
while (1) { 
char *string = s recv (subscriber); 
if (strcmp (string, "END") -- 0) ( 
free (string); 
break; 
} 
free (string); 
update_nbr++; 


} 

printf (" 收 到 %d 4&7 &\n", update nbr); 
zmq close (subscriber); 

zmq close (syncclient); 


zmq term (context); 
Ige teli Or 


以 下 这 上 段 shell 脚 本 会 启动 10 个 订阅 者 、1 个 发 布 者 : 


Echo a EZ TEE 

Lobasdm9152 34505 6 198 9207 dO 
syncsub & 

done 

echo "Ea EA..." 

syncpub 


结果 如 下 : 


正在 启动 订阅 者 .,， 
正在 启动 发 布 者 ,.. 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 
收 到 1000000 条 


zn n i c c n I i cA 
2x OLX OAX DX AX DX DX 2X DX NX 
Gm Qmm Qm (mm Qm m m m (m m 


a 


a 


~ 





~ 


~ 


当 REQ-REP 请 求 完成 时 ， 我 们 仍 无 法 保证 SUB 套 接 字 已 成 功 建 立 连接 。 除 非 使 用 
inproc 协 议 ， 否 则 对 外 连接 的 顺序 是 不 一 定 的 。 因 此 ， 示 例 程序 中 使 用 了 sleep(1) 的 
方式 来 进行 处 理 ， 随 后 再 发 送 同步 请 求 。 


更 可 靠 的 模型 可 以 是 : 


e 发 布 者 打开 PUB 和 套 接 字 ， 开 始 发 送 Hello 消 息 ( 非 数 据 ) ; 

e 订阅 者 连接 SUB 套 接 字 ， 当 收 到 Hello 消 息 后 再 使 用 REQ-REP 套 接 字 进行 同 
步 ; 

e 当 发 布 者 获得 所 有 订阅 者 的 同步 消息 后 ， 才 开始 发 送 丨 正 的 数据 。 


AS n 


第 一 章 中 我 们 曾 提 过 零 找 贝 是 很 危险 的 ， 其 实 那 是 吓 距 你 的 。 既 然 你 已 经 读 到 这 里 
了 ， 说 明 你 已 经 具备 了 足够 的 知识 ， 能 够 使 用 零 找 贝 。 但 需要 记 住 ， 条 条 大 路 通 地 
狱 ， 过 早 地 对 程序 进行 优化 其 实 是 没有 必要 的 。 简 单 的 说 ， 如 果 你 用 不 好 零 找 贝 ， 
那 可 能 会 让 程序 架构 变 得 更 糟 。 


ZMQ 提 供 的 API 可 以 让 你 直接 发 送 和 接收 消息 ， 不 用 考虑 缓存 的 问题 。 正 因为 消息 
是 由 ZMQ 在 后 台 收 发 的 ， 所 以 使 用 零 捞 贝 需要 一 些 额 外 的 工作 。 


做 零 捞 贝 时 ， 使 用 zmgq_msg init data() 有 函数 创建 一 条 消息 ， 其 内 容 指向 某 个 已 经 分 
配 好 的 内 存 区 域 ， 然 后 将 该 消息 传递 给 zmq_send() 辑 数 。 创 建 消息 时 ， 你 还 需要 提 
供 一 个 用 于 释放 消息 内 容 的 函数 ，ZMQ 会 在 消息 发 送 完毕 时 调用 。 下 面 是 一 个 简单 
的 例子 ， 我 们 假设 已 经 分 配 好 的 内 存 区 域 为 1000 个 字 节 : 


void my free (void *data, void *hint) ( 
free (data); 
} 


// Send message from buffer, which we allocate and OMQ will free 1 
zmq msg t message; 

zmq msg init data (&message, buffer, 1000, my free, NULL); 

zmq send (socket, &message, 9); 








在 接收 消息 的 时 候 是 无 法 使 用 零 拷 贝 的 : ZMQ 会 将 收 到 的 消息 放 入 一 块 内 存 区 域 供 
你 读 取 ， 但 不 会 将 消息 写 入 程序 指定 的 内 存 区 域 。 


ZMQ 的 多 段 消息 能 够 很 好 地 支持 零 捞 贝 。 在 传统 消息 系统 中 ， 你 需要 将 不 同 缓存 中 
的 内 容 保存 到 同一 个 缓存 中 ， 然 后 才能 发 送 。 但 ZMQ 会 将 来 自 不 同 内存 区 域 的 内 容 
作为 消息 的 一 个 帧 进行 发 送 。 而 且 在 ZMQ 内 部 ， 一 条 消息 会 作为 一 个 整体 进行 收 
发 ， 因 而 非常 高 效 。 


瞬时 套 接 字 和 持久 套 接 字 

在 传统 网 络 编程 中 ， 套 接 字 是 一 个 API 对 象 ， 它 们 的 生命 周期 不 会 长 过 程序 的 生命 

周期 。 但 仔细 打量 一 下 套 接 字 ， 它 会 占用 一 项 特定 的 资源 缓存 ， 这 时 ZMQ 的 开 
发 者 可 能 会 问 : 是 否 有 办 法 在 程序 崩溃 时 让 这 些 套 接 字 缓存 得 以 保留 ， 稍 后 能 够 恢 
复 ? 


这 种 特性 应 该 会 非常 有 用 ， 虽 然 不 能 应 对 所 有 的 危险 ， 但 至 少 可 以 挽回 一 部 分 损 
失 ， 特 别 是 多 发 布 -订阅 模式 来 说 。 让 我 们 来 讨论 一 下 。 


这 里 有 两 个 套 接 字 正在 欢快 地 传送 着 气象 信息 : 








Network I/O buffers 


OMQ Receive buffer 


= 0MQ Transmit buffer 


Figure 15 — Sender boring the pants off receiver 

如 果 接 收 方 (SUB ` PULL ` REQ) 指定 了 套 接 字 标 识 ， 当 它们 断 开 网 络 时 ， 发 送 
Z (PUB ` PUSH ` REP) 会 为 它们 缓存 信息 ， 直 至 达到 阅 值 (HWM) 。 这 里 发 送 
方 不 需要 有 人 套 接 字 标 识 。 

需要 注意 ，ZMQ 的 套 接 字 缓 存 对 程序 原来 说 是 不 可 见 的 ， 正 如 TCP 缓 存 一 样 。 


到 目前 为 止 ， 我 们 使 用 的 套 接 字 都 是 瞬时 套 接 字 。 要 将 瞬时 套 接 字 转 化 为 持久 套 接 
字 ， 需 要 为 其 设 定 一 个 套 接 字 标 识 。 所 有 的 ZMQ 套 接 字 都 会 有 一 个 标识 ， 不 过 是 由 
ZMQ 自 动 生 成 的 UUID ° 


在 ZMQ 内 部 ， 两 个 套 接 字 相 连 时 会 先 交 换 各 自 的 标识 。 如 果 发 生 对 方 没有 ID ， 则 会 
自行 生成 一 个 用 以 标识 对 方 : 





Sender 


"Fine, l'Il call you Luv" 


"Not telling you my name!" 


Receiver 





Figure 16 — Transient socket 


但 套 接 字 也 可 以 告知 对 方 自己 的 标识 ， 那 当 它 们 第 二 次 连接 时 ， 就 能 知道 对 方 的 身 


份 : 


EE 十 
| | 
| Sender | 
| | 
TEREE + 
| Socket | 
\----------- / 


"Lucy! Nice to see you again..." 


"My name's Lucy" 


/----- +----- \ 
| Socket | 
omen 十 
| | 
| Receiver | 
| | 
Paap dma 十 


Figure # - Durable socket 


下 面 这 行 代码 就 可 以 为 套 接 字 设 置 标识 ， 从 而 建立 了 一 个 持久 的 套 接 字 : 


zmq setsockopt (socket, ZMQ IDENTITY, "Lucy", 4); 


关于 套 接 字 标 识 还 有 几 点 说 明 : 


e 如 果 要 为 套 接 字 设 置 标识 ， 必 须 在 连接 或 绑 定 至 端点 之 前 设置 ; 
e 接收 方 会 选择 使 用 套 接 字 标 识 ， 正 如 cookie 在 HTTP 网 页 应 用 中 的 性 质 ， 是 由 
服务 器 去 选择 要 使 用 哪个 cookie 的 ; 


e 套 接 字 标 识 是 二 进 制 字符 串 ; 以 字 节 0 开头 的 套 接 字 标识 为 ZMQ 保 留 标识 ; 

e 不 用 为 多 个 套 接 字 指 定 相 同 的 标识 ， 若 套 接 字 使 用 的 标识 已 被 占用 ， 它 将 无 法 
连接 至 其 他 套 接 字 ; 

e 不 要 使 用 随机 的 套 接 字 标识 ， 这 样 会 生成 很 多 持久 化 套 接 字 ， 最 终 让 节点 裔 
HB 

e 如 果 你 想 获取 对 方 套 接 字 的 标识 ， 只 有 ROUTER 套 接 字 会 帮 你 自动 完成 这 件 
事 ， 使 用 其 他 套 接 字 类 型 时 ， 需 要 将 标识 作为 消息 的 一 帧 发 送 过 来 ; 

e 说 了 以 上 这 些 ， 使 用 持久 化 套 接 字 其 实 并 不 明智 ， 因 为 它 会 让 发 送 者 越 来 越 混 
乱 ， 让 架构 变 得 脆弱 。 如 果 我 们 能 重新 设计 ZMQ， 很 可 能 会 去 掉 这 种 显 式 声明 
套 接 字 标 识 的 功能 。 


其 他 信息 可 以 查看 zmq_setsockopt() 函 数 的 ZMQ_IDENTITY 一 节 。 注 意 ， 该 方法 只 
能 获取 程序 中 套 接 字 的 标识 ， 而 不 能 获得 对 方 套 接 字 的 标识 。 

发 布 -订阅 消息 信封 

我 们 简单 介绍 了 多 帧 消息 ， 下 面 就 来 看 看 它 的 典型 用 法 
消息 注 明 来 源 地 址 ， 而 不 修改 消息 内 容 。 

在 发 布 -订阅 模式 中 ， 信 封包 含 了 订阅 信息 ， 用 以 过 滤 掉 不 需要 接收 的 消息 。 

如 果 你 想 要 使 用 发 布 -订阅 信封 ， 就 需要 自行 生成 和 设置 。 这 个 动作 是 可 选 的 ， 我 们 
在 之 前 的 示例 中 也 没有 使 用 到 。 在 发 布 -订阅 模式 中 使 用 信封 可 能 会 比较 麻烦 ， 但 在 
现实 应 用 中 还 是 很 有 必要 的 ， 毕 竞 信 封 和 消息 的 确 是 两 块 不 想 干 的 数据 。 

这 是 发 布 -订阅 模式 中 一 个 带 有 信封 的 消息 : 


消息 信封 。 信 封 是 指 为 








Frame 1 Key Subscription key 
Frame 2 | Data — | Actual message body 
Figure 17 — -Pub sub envelope with separate key 


我 们 回忆 一 下 ， 发 布 -订阅 模式 中 ， 消 息 的 接收 是 根据 订阅 信息 来 的 ， 也 就 是 消息 的 
前 级 。 将 这 个 前 组 放 入 单独 的 消息 帧 ， 可 以 让 匹配 变 得 非常 明显 。 因 为 不 会 有 一 个 
应 用 程序 恰好 只 匹配 了 一 部 分 数据 。 

下 面 是 一 个 最 简 的 发 布 -订阅 消息 信封 示例 。 发 布 者 会 发 送 两 类 消息 : A 和 B， 信 封 
中 指明 了 消息 类 型 : 


psenvpub: Pub-sub envelope publisher in C 


zu 

// 发 布 -订阅 消息 信封 - 发 布 者 

// ”Ss_sendmore( ) 函 数 也 是 zhelLlpers.h 提 供 的 
// 

#include "zhelpers.h" 


int main (void) 


{ 
// ”准备 上 下 文 和 PUB 套 接 字 
void *context = zmq init (1); 
void *publisher - zmq socket (context, ZMQ PUB); 
zmq bind (publisher, "tcp://*:5563"); 
while (1) { 
// 发 布 两 条 消息 ，A 类 型 和 B 类 型 
s sendmore (publisher, "A"); 
s send (publisher, "We don't want to see this"); 
s sendmore (publisher, "B"); 
s send (publisher, "We would like to see this"); 
sleep (1); 
} 
// 正确 退出 
zmq close (publisher); 
zmq term (context); 
rae tuam 
} 


假设 订阅 者 只 需要 B 类 型 的 消息 : 


psenvsub: Pub-sub envelope subscriber in C 


Jn 

// 发布- 订阅 消息 信封 - 订阅 者 
// 

#include "zhelpers.h" 


int main (void) 


{ 
// ”准备 上 下 文 和 SUB 套 接 字 
void *context = zmq_init (1); 
void *subscriber = zmq socket (context, ZMQ SUB); 
zmq connect (subscriber, "tcp://localhost:5563"); 
zmq setsockopt (subscriber, ZMQ SUBSCRIBE, "B", 1); 
while (1) { 
// ” 读 取 消息 信封 
char *address = s_recv (subscriber); 
// RPH DAR 
char *contents = s_recv (subscriber); 
printf ("[%s] %s\n", address, contents); 
free (address); 
free (contents); 
} 
// 正确 退出 
zmq close (subscriber); 
zmq term (context); 
return 0; 
} 


执行 上 面 的 程序 时 ， 订 阅 者 会 打印 如 下 信息 : 


[B] We would like to see this 
[B] We would like to see this 
[B] We would like to see this 
[B] We would like to see this 


这 个 示例 说 明 订 阅 者 会 丢弃 未 订阅 的 消息 ， 且 接收 完整 的 多 帧 消息 一 一 你 不 会 只 获 


得 消息 的 一 部 分 
如 果 你 订阅 了 多 个 套 接 字 ， 又 想 知 道 这 些 套 接 字 的 标识 ， 从 而 通过 另 一 个 套 接 字 来 
发 送 消 息 给 它们 (这 个 用 例 很 常见 ) ， 你 可 以 让 发 布 者 创建 一 条 含有 三 帧 的 消息 : 








Frame 1 Key Subscription key 
Frame 2 Identity Address of publisher 


Frame 3 Actual message body 





Figure 18 — Pub sub envelope with sender address 


(35) BEAT Ae (HWM) 


所 有 的 套 接 字 类 型 都 可 以 使 用 标识 。 如 果 你 在 使 用 PUB 和 SUB 套 接 字 ， 其 中 SUB 套 
接 字 为 自己 声明 了 标识 ， 那 么 ， 当 SUB 断 开 连 接 时 ，PUB 会 保留 要 发 送 给 SUB 的 消 


息 。 
这 种 机 制 有 好 有 坏 。 好 的 地 方 在 于 发 布 者 会 暂 存 这 些 消息 ， 当 订阅 者 重 连 后 进行 发 
送 ; 不 好 的 地 方 在 于 这 样 很 容易 让 发 布 者 因 内 存 溢出 而 崩溃 。 

如 果 你 在 使 用 持久 化 的 SUB 套 接 字 ( 即 为 SUB 设 置 了 大 接 字 标识 ) ， 那 么 你 必须 设 
法 避免 消息 在 发 布 者 队列 中 堆砌 并 溢出 ， 应 该 使 用 阅 值 (HWM ) 来 保护 发 布 者 套 
接 字 。 发 布 者 的 阅 值 会 分 别 影响 所 有 的 订阅 者 。 


我 们 可 以 运行 一 个 示例 来 证 明 这 一 点 ， 用 第 一 章 中 的 wuclient 和 wuserver 具 体 ， 在 
wuclient 中 进行 套 接 字 连接 前 加 入 这 一 行 : 


zmq setsockopt (subscriber, ZMQ IDENTITY, "Hello", 5); 


编译 并 运行 这 两 段 程序 ， 一 切 看 起 来 都 很 平常 。 但 是 观察 一 下 发 布 者 的 内 存 占 用 情 
况 ， 可 以 看 到 当 订 阅 者 逐个 退出 后 ， 发 布 者 的 内 存 占用 会 逐渐 上 升 。 若 此 时 你 重 局 
订阅 者 ， 会 发 现 发 布 者 的 内 存 占 用 不 再 增长 了 ， 一 旦 订阅 者 停止 ， 就 又 会 增长 。 很 
快 地 ， 它 就 会 耗 尽 系统 资源 。 

我 们 先 来 看 看 如 何 设置 阅 值 ， 然 后 再 看 如 何 设置 得 正确 。 下 面 的 发 布 者 和 订阅 者 使 
用 了 上 文 提 到 的 “节点 协调 "机 制 。 发 布 者 会 每 隔 一 秒 发 送 一 条 消息 ， 这 时 你 可 以 中 
断 订 阅 者 ， 重 新 启动 它 ， 看 看 会 发 生 什 么 。 

以 下 是 发 布 者 的 代码 : 

durapub: Durable publisher in C 


Jn 

// 发 布 者 - 连接 持久 化 的 订阅 者 
// 

#include "zhelpers.h" 


int main (void) 


{ 

void *context = zmq_init (1); 

// ”订阅 者 会 发 送 已 就 绪 的 消息 

void *sync = zmq socket (context, ZMQ PULL); 

zmq bind (sync, "tcp://*:5564"); 

// 使 用 该 套 接 字 发 布 消息 

void *publisher = zmq socket (context, ZMQ PUB); 

zmq bind (publisher, "tcp://*:5565"); 

// 等待 同步 消息 

char *string = s recv (sync); 

free (string); 

// 广播 10 条 消息 ， 一 秒 一 条 

int update nbr; 

for (update nbr = 0; update nbr < 10; update nbr++) 
char string [20]; 
sprintf (string, "Update %d", update nbr); 
s send (publisher, string); 
sleep (1); 

s send (publisher, "END"); 

zmq close (sync); 

zmq close (publisher); 

zmq term (context); 

return 9 

} 
下 面 是 订阅 者 的 代码 : 


durasub: Durable subscriber in C 


Jun 

// ”持久 化 的 订阅 者 

// 

#include "zhelpers.h" 


int main (void) 


{ 

void *context = zmq init (1); 
// ”连接 SUB 套 接 字 
void *subscriber = zmq socket (context, ZMQ SUB); 
zmq setsockopt (subscriber, ZMQ IDENTITY, "Hello", 5); 
zmq setsockopt (subscriber, ZMQ SUBSCRIBE, "", 0); 
zmq connect (subscriber, "tcp://localhost:5565"); 
// 发 送 同步 消息 
void *sync = zmq socket (context, ZMQ PUSH); 
zmq connect (sync, "tcp://localhost:5564"); 
s send (sync, "'""); 
// 获取 更 新 ， 并 按 指令 退出 
while (1) { 

char *string = s recv (subscriber); 

printt ("9Xsxn". string) 

if (strcmp (string, "END") == 0) ( 

free (string); 
break; 

} 

free (string); 
} 
zmq_close (sync); 
zmq_close (subscriber); 
zmq_term (context); 
return 0; 

} 


运行 以 上 代码 ， 在 不 同 的 窗口 中 先后 打开 发 布 者 和 订阅 者 。 当 订阅 者 获取 了 一 至 两 
条 消息 后 按 Ctrl-C 中 止 ， 然 后 重新 启动 ， 看 看 执行 结果 : 


$ durasub 
Update 0 

Update 1 

Update 2 

^C 

$ durasub 
Update 3 

Update 4 

Update 5 

Update 6 

Update 7 

^C 

$ durasub 
Update 8 

Update 9 

END 


可 以 看 到 订阅 者 的 唯一 区 别 是 为 套 接 字 设 置 了 标识 ， 发 布 者 就 会 将 消息 缓存 起 来 ， 
待 重建 连接 后 发 送 。 设 置 套 接 字 标 识 可 以 让 瞬时 套 接 字 转 变 为 持久 套 接 字 。 实 践 
中 ， 你 需要 小 心地 给 套 接 字 起 名 字 ， 可 以 从 配置 文件 中 获取 ， 或 者 生成 一 个 UUID 
并 保存 起 来 。 


当 我 们 为 PUB 套 接 字 设 置 了 阅 值 ， 发 布 者 就 会 缓存 指定 数量 的 消息 ， 转 而 丢弃 溢出 
的 消息 。 让 我 们 将 阅 值 设置 为 2， 看 看 会 发 生 什么 : 


uint64 t hwm = 2; 
zmq setsockopt (publisher, ZMQ HWM, &hwm, sizeof (hwm)); 


运行 程序 ， 中 断 订 阅 者 后 等 待 一 段 时间 再 重启 ， 可 以 看 到 结果 如 下 : 


$ durasub 
Update 0 

Update 1 

^C 

$ durasub 
Update 2 

Update 3 

Update 7 

Update 8 

Update 9 

END 


看 仔细 了 ， 发 布 者 只 为 我 们 保存 了 两 条 消息 (2 和 3) » BA AEZMQ A X B8 
的 消息 。 


简 而 言 之 ， 如 果 你 要 使 用 持久 化 的 订阅 者 ， 就 必须 在 发 布 者 端 设置 阅 值 ， 否 则 可 能 
造成 服务 器 因 内 存 溢 出 而 盘 溃 。 但 是 ， 还 有 另 一 种 方法 。ZMQ 提 供 了 名 为 交换 区 
(swap) 的 机 制 ， 它 是 一 个 磁盘 文件 ， 用 于 存放 从 队列 中 溢出 的 消息 。 启 动 它 很 简 


TE SP. H 4L o. mx 
i / j8 ^X LIRA CN 小 ? [EE s cuu e 


uint64 t swap - 25000000; 
zmq setsockopt (publisher, ZMQ SWAP, &swap, sizeof (swap)); 


我 们 可 以 将 上 面 的 方法 综合 起 来 ， 编 写 一 个 既 能 接受 持久 化 套 接 字 ， 又 不 至 于 内 存 
溢出 的 发 布 者 : 


durapub2: Durable but cynical publisher in C 


Jn 

// 发 布 者 - 连接 持久 化 订阅 者 
// 

#include "zhelpers.h" 


int main (void) 


( 


void *context - zmq init (1); 


// ”订阅 者 会 告知 我 们 它 已 就 绪 
void *sync = zmq socket (context, ZMQ PULL); 
zmq_bind (sync, "tcp://*:5564"); 


// 使 用 该 套 接 字 发 ; 
void *publisher 


送 消息 

= zmq socket (context, ZMQ PUB); 

// ”避免 慢 持 久 化 订阅 者 消息 溢出 的 问题 

人 hwm = 1; 

zmq setsockopt (publisher, ZMQ HWM, &hwm, sizeof (hwm)); 


// 设置 交换 区 大 小 ， 供 所 有 订阅 者 使 用 

uint64 t swap = 25000000; 

zmq setsockopt (publisher, ZMQ SWAP, &swap, sizeof (swap)); 
zmq bind (publisher, "tcp://*:5565"); 


// ”等 待 同步 消息 
char *string = s recv (sync); 
free (string); 


// 发 布 19 条 消息 ， 一 秒 一 条 
int update nbr; 
for (update nbr = 0; update nbr < 10; update nbr++) ( 
char string [20]; 
sprintf (string, "Update %d", update_nbr); 
s_send (publisher, string); 
sleep (1); 


s send (publisher, "END"); 


zmq close (sync); 

zmq close (publisher); 
zmq term (context); 
metum 


若 在 现实 环境 中 将 阅 值 设置 为 1， 致 使 所 有 待 发 送 的 消息 都 保存 到 磁盘 上 ， 会 大 大 
降低 处 理 速度 。 这 里 有 一 些 典 型 的 方法 用 以 处 理 不 同 的 订阅 者 : 


。 必须 为 PUB 套 接 字 设置 阅 值 ， 具 体 数 字 可 以 通过 最 大 订阅 者 数 、 可 供 队 列 使 用 
的 最 大 内 存 区 域 、 以 及 消息 的 平均 大 小 来 衡量 。 举 例 来 说 ， 你 预计 会 有 5000 个 
订阅 者 ， 有 1G 的 内 存 可 供 使 用 ， 消 息 大 小 在 200 个 字 节 左右 ， 那 么 ， 一 个 合理 


&j I] 4& Æ 1,000,000,000 / 200 / 5,000 = 1,000 ° 


e 如 果 你 不 希望 慢 速 或 前 溃 的 订阅 者 丢失 消息 ， 可 以 设置 一 个 交换 区 ， 在 高 峰 期 
的 时 候 存 放 这 些 消息 。 交 换 区 的 大 小 可 以 根据 订阅 者 数 、 高 峰 消 息 比 率 、 消 息 
平均 大 小 、 暂 存 时 间 等 来 衡量 。 比 如， 你 预计 有 5000 个 订阅 者 ， 消 息 大 小 为 
200 个 字 节 左右 ， 每 秒 会 有 10 万 条 消息 。 这 样 ， 你 每 秒 就 需要 100MB 的 磁盘 空 
间 来 存放 消息 。 加 总 起 来 ， 你 会 需要 6GB 的 磁盘 空间 ， 而 且 必 须 足 够 的 快 (这 
超出 了 本 指南 的 讲解 范围 ) e 


关于 持久 化 订阅 者 : 


e 数据 可 能 会 丢失 ， 这 要 看 消息 发 布 的 频率 、 网 络 缓存 大 小 、 通 信 协 议 等 。 持 久 
化 的 订阅 者 比 起 瞬时 套 接 字 要 可 靠 一 些 ， 但 也 并 不 是 完美 的 。 


e 交换 区 文件 是 无 法 恢复 的 ， 所 以 当 发 布 者 或 代理 消亡 时 ， 交 换 区 中 的 数据 仍然 
会 丢失 。 
X-T à: 
e 这 个 选项 会 同时 影响 套 接 字 的 发 送 和 接收 队列 。 当 然 ， PUB、PUSH 不 会 有 接 


收 队 列 ，SUB、PULL、REQ、REP 不 会 有 发 送 队 列 。 而 像 DEALER ` 
ROUTER、PAIR 套 接 字 时 ， 他 们 既 有 发 送 队 列 ， 又 有 接收 队列 。 


e 当 套 接 字 达到 阅 值 时 ，ZMQ 会 发 生 阻塞 ， 或 直接 丢弃 消息 。 


e 使 用 inproc 协 议 时 ， 发 送 者 和 接受 者 共享 同一 个 队列 缓存 ， 所 以 说 ， 申 正 的 阅 
值 是 两 个 套 接 字 阅 值 之 和 。 如 果 一 方 套 接 字 没 有 设置 阅 值 ， 那么 它 就 不 会 有 绥 
存 方面 的 限制 。 


这 就 是 你 想 要 的 |! 
ZMQ 就 像 是 一 金 积 木 ， 只 要 你 有 足够 的 想象 力 ， 就 可 以 用 它 组 装 出 任何 造型 的 网 络 
架构 。 


这 种 高 可 扩 、 高 弹性 的 架构 一 定 会 打开 你 的 眼界 。 其 实 这 并 不 是 ZMQ 原 创 的 ， 早 就 
有 像 Erlang 这 样 的 基于 流 的 编程 语言 已 经 能 够 做 到 了 ， 只 是 ZMQ 提 供 了 更 为 友善 和 
易 用 的 接口 。 


正如 Gonzo Diethelm 所 言 : "我 想 用 一 名 话 来 总 结 ，' 如 果 ZMQ 不 存在 ， 那 它 就 应 该 
被 发 明 出 来 。' 作 为 一 个 有 着 多 年 相关 工作 经 验 的 人 ，ZMQ 太 能 引起 我 的 共鸣 了 。 
我 只 能 说 ，' 这 就 是 我 想 要 的 1 ” 


大 大 — 


第 三 章 高 级 请 求 -应 答 模式 


在 第 二 章 中 我 们 通过 开发 一 系列 的 小 应 用 来 熟悉 QMQ 的 基本 使 用 方法 ， 每 个 应 用 会 
引入 一 些 新 的 特性 。 本 章 会 沿用 这 种 方式 ， 来 探索 更 多 建立 在 OMQ 请 求 -应 答 模 式 
之 上 的 高 级 工作 模式 。 


本 章 涉 及 的 内 容 有 : 


在 请 求 -应 答 模式 中 创建 和 使 用 消息 信封 
使 用 REQ、REP、DEALER 和 ROUTER 套 接 字 
使 用 标识 来 手工 指定 应 答 目 标 

使 用 自 定义 离散 路 由 模式 

使 用 自 定义 最 近 最 少 使 用 路 由 模式 
构建 高 层 消息 封装 类 

构建 基本 的 请 求 应 答 代 理 

合理 命名 套 接 字 

模拟 client-worker 集 群 

构建 可 扩展 的 请 求 -应 答 集 群 云 

使 用 管道 套 接 字 监 控 线 程 


Request-Reply Envelopes 


在 请 求 -应 答 模 式 中 ， 人 和 信封 里 保存 了 应 答 目 标的 位 置 。 这 就 是 为 什么 QMQ 网 络 虽然 
是 无 状态 的 ， 但 仍 能 完成 请 求 - 应 答 的 过 程 。 


在 一 般 使 用 过 程 中 ， 你 并 不 需要 知道 请 求 -应 答 信 封 的 工作 原理 。 使 用 REQ、REP 
时 ，GMQ 会 自动 处 理 消 息 信封 。 下 一 章 讲 到 的 装置 (device) ， 使 用 时 也 只 需 保 证 
读 取 和 写 入 所 有 的 信息 即 可 。OMQ 使 用 多 段 消 息 的 方式 来 存储 信封 ， 所 以 在 复制 消 
息 时 也 会 复制 信封 。 


然而 ， 在 使 用 高 级 请 求 -应 答 模式 之 前 是 需要 了 解 信 封 这 一 机 制 的 ， 以 下 是 信封 机 制 
在 ROUTER 中 的 工作 原理 : 


e 从 ROUTER 中 读 取 一 条 消息 时 ，GMQ 会 包 上 一 层 信 封 ， 上 面 注 明 了 消息 的 来 
产 o 

e 向 ROUTER 写 入 一 条 消息 时 (包含 信封 ) ，GMQ 会 将 信封 拆 开 ， 并 将 消息 递 
送 给 相应 的 对 象 。 


如 果 将 从 ROUTER A 中 获取 的 消息 ( 包含 信封 ) S AROUTER B. (即将 消息 发 送 给 
一 个 DEALER， 该 DEALER 连 接 到 了 ROUTER) ， 那 么 在 从 ROUTER B 中 获取 该 消 
息 时 就 会 包含 两 层 信封 。 

信封 机 制 的 根本 作用 是 让 ROUTER 知 道 如 何 将 消息 递送 给 正确 的 应 答 目 标 ， 你 需要 
做 的 就 是 在 程序 中 保留 好 该 信封 。 回 顾 一 下 REP 套 接 字 ， 它 会 将 收 到 消息 的 信封 逐 
个 拆 开 ， 将 消息 本 身 传 送 给 应 用 程序 。 而 在 发 送 时 ， 又 会 在 消息 外 层 ERAH > 
发 送 给 ROUTER， 从 而 传递 给 正确 的 应 答 目 标 。 


我 们 可 以 使 用 上 述 原理 建立 起 一 个 ROUTER-DEALER 装 置 : 


[REQ] «--» [REP] 

[REQ] «--» [ROUTER--DEALER] «--» [REP] 

[REQ] <--> [ROUTER--DEALER] <--> [ROUTER--DEALER] <--> [REP] 
TEEGA 













Frame 1 «——— Envelope 
Frame 2 Empty message part 
Frame 3 

Figure 1 一 Single hop request-reply envelope 


e 第 三 帧 是 应 用 程序 发 送 给 REQ 套 接 字 的 消息 ; 

o 第 二 帧 的 空 信息 是 REQ 套 接 字 在 发 送 消 息 给 ROUTER 之 前 添加 的 ; 

。 第 一 帧 即 信封 ， 是 由 ROUTER 套 接 字 添加 的 ， 记 录 了 消息 的 来 源 。 
如 果 我 们 在 一 条 装置 链 路 上 传递 该 消息 ， 最 终 会 得 到 包含 多 层 信封 的 消息 。 最 新 的 
信封 会 在 消息 的 顶部 。 


(Next envelope will go here) 







Frame 1 4——— Envelope (ROUTER) 
Frame 2 4——— Envelope (ROUTER) 
Frame 3 «——— Envelope (ROUTER) 
Frame 4 NN «———— Empty message part (REQ) 
Frame 5 

Figure 2 — Multihop requestreply envelope 


以 下 将 详 述 我 们 在 请 求 -应 答 模式 中 使 用 到 的 四 种 套 接 字 类 型 : 


。 DEALER 是 一 种 负载 均衡 ， 它 会 将 消息 分 发 给 已 连接 的 节点 ， 并 使 用 公平 队列 
的 机 制 处 理 接受 到 的 消息 。DEALER 的 作用 就 像 是 PUSH 和 PULL 的 结合 。 


e REQ 发 送 消息 时 会 在 消息 顶部 插入 一 个 空 帧 ， 接 受 时 会 将 空 帧 移 去 。 其 实 REQ 
是 建立 在 DEALER 之 上 的 ， 但 REQ 只 有 当 消 息 发 送 并 接受 到 回应 后 才能 继续 运 
行 。 

e ROUTER 在 收 到 消息 时 会 在 顶部 添加 一 个 信封 ， 标 记 消 息 来 源 。 发 送 时 会 通过 
该 信封 决定 哪个 节点 可 以 获取 到 该 条 消息 。 

e REP 在 收 到 消息 时 会 将 第 一 个 空 帧 之 前 的 所 有 信息 保存 起 来 ， 将 原始 信息 传送 


给 应 用 程序 。 在 发 送 消息 时 ，REP 会 用 刚才 保存 的 信息 包 庄 应 答 消 息 。REP 其 
实 是 建立 在 ROUTER 之 上 的 ， 但 和 REQ 一 样 ， 必 须 完成 接受 和 发 送 这 两 个 动作 


REP 要 求 消息 中 的 信封 由 一 个 空 帧 结束 ， 所 以 如 果 你 没有 用 REQ 发 送 消息 ， 则 需要 
自己 在 消息 中 添加 这 个 空 帧 。 

你 肯定 会 问 ，ROUTER 是 怎么 标识 消息 的 来 源 的 ?答案 当然 是 套 接 字 的 标识 。 我 们 
之 前 讲 过 ， 一 个 套 接 字 可 能 是 瞬时 的 ， 它 所 连接 的 套 接 字 (如 ROUTER ) 则 会 给 它 
生成 一 个 标识 ， 与 之 相关 联 。 一 个 套 接 字 也 可 以 显 式 地 给 自己 定义 一 个 标识 ， 这 样 
其 他 套 接 字 就 可 以 直接 使 用 了 。 


这 是 一 个 瞬时 的 套 接 字 ，ROUTER 会 自动 生成 一 个 UUID 来 标识 消息 的 来 源 。 


Client 
| REQ | Client sends this 
"My identity is empty" 


ROUTER ROUTER invents UUID to 


EC | e— HA 


Figure3 一 ROUTER invents a UUID for transient sockets 


这 是 一 个 持久 的 套 接 字 ， 标 识 由 消息 来 源 自己 指定 。 


Sent rant (socket, 
Client ZMQ IDENTITY, "Lucy", 4); 


i 











ROUTER ROUTER uses identity of 
oA client as reply address 
Figure4 — ROUTER uses identity if it knows it 


下 面 让 我 们 在 实例 中 观察 上 述 两 种 操作 。 下 列 程序 会 打印 出 ROUTER 从 两 个 REP 套 
接 字 中 获得 的 消息 ， 其 中 一 个 没有 指定 标识 ， 另 一 个 指定 了 “Hello" 作 为 标识 。 


identity.c 


7 4 

// 以 下 程序 演示 了 如 何在 请 求 -应 答 模式 中 使 用 套 接 字 标 识 。 
// 需要 注意 的 是 S_ 开头 的 函数 是 由 zhelpers.h 提 供 的 。 
// 我 们 没有 必要 重复 编写 那些 代码 。 

// 

#include "zhelpers.h" 


int main (void) 


{ 
void *context = zmq init (1); 
void *sink - zmq socket (context, ZMQ ROUTER); 
zmq bind (sink, "inproc://example"); 
// 第 一 个 套 接 字 由 9MQ 自 动 设 置 标识 
void *anonymous = zmq socket (context, ZMQ REQ); 
zmq connect (anonymous, "inproc://example"); 
s send (anonymous, "ROUTER uses a generated UUID"); 
s dump (sink); 
// 第 二 个 由 自己 设置 
void *identified = zmq socket (context, ZMQ REQ); 
zmq setsockopt (identified, ZMQ IDENTITY, "Hello", 5); 
zmq connect (identified, "inproc://example"); 
s send (identified, "ROUTER socket uses REQ's socket identity" 
s dump (sink); 
zmq close (sink); 
zmq close (anonymous); 
zmq close (identified); 
zmq term (context); 
return 0; 
} 





[017] 00314F043F46CA441E28DDOAC54BE8DA727 


[026] ROUTER uses a generated UUID 


[038] ROUTER socket uses REQ's socket identity 


自 定 义 请 求 -应 答 路 由 


我 们 已 经 看 到 ROUTER 套 接 字 是 如 何 使 用 信封 将 消息 发 送 给 正确 的 应 答 目 标的 ， 下 
面 我 们 从 一 个 角度 来 定义 ROUTER : 在 发 送 消息 时 使 用 一 定格 式 的 信封 提供 正确 的 
路 由 目标 ，ROUTER 就 能 够 将 该 条 消息 异步 地 发 送 给 对 应 的 节点 。 


所 以 说 ROUTER 的 行为 是 完全 可 控 的 。 在 深入 理解 这 一 特性 之 前 ， 让 我 们 先 近 距离 
观察 一 下 REQ 和 REP 套 接 字 ， 赋 了 予 他 们 一 些 鲜 活 的 角色 : 


e REQ 是 一 个 “妈妈 ” 套 接 字 ， 不 会 耐心 听 别 人 说 话 ， 但 会 不 断 地 抛 出 问题 寻求 解 
答 。REQ 是 严格 同步 的 ， 它 永远 位 于 消息 链 路 的 请 求 端 ; 

e REP 则 是 一 个 “和 爸爸" 套 接 字 ， 只 会 回答 问题 ， 不 会 主动 和 别人 对 话 。REP 也 是 
严格 同步 的 ， 并 一 直 位 于 应 答 端 。 


关于 “妈妈 ” 套 接 字 ， 正 如 我 们 小 时 候 所 经 历 的 ， 只 能 等 她 向 你 开口 时 你 们 才能 对 

话 。 妈 妈 不 像 爸 和 爸 那 么 开明 ， 也 不 会 像 DEALER 套 接 字 一 样 接受 模棱两可 的 回答 。 
所 以 ， 想 和 REQ 套 接 字 对 话 只 有 等 它 主动 发 出 请 求 后 才 行 ， 之 后 它 就 会 一 直 等 待 你 
的 回答 ， 不 管 有 多 久 。 


“ 答 耸 " 套 接 字 则 给 人 一 种 强硬 、 冷 漠 的 感觉 ， 他 只 做 一 件 事 : 无 论 你 提出 什么 问 
题 ， 都 会 给 出 一 个 精确 的 回答 。 不 要 期 望 一 个 REP 套 接 字 会 主动 和 你 对 话 或 是 将 你 
俩 的 交谈 传达 给 别人 ， 它 不 会 这 么 做 的 。 


我 们 通常 认为 请 求 -应 答 模 式 一 定 是 有 来 有 往 、 有 去 有 回 的 过 程 ， 但 实际 上 这 个 过 程 
是 可 以 异步 进行 的 。 我 们 只 需 获 得 相应 节点 的 地 址 ， 即 可 通过 ROUTER 套 接 字 来 异 
步 地 发 送 消息 。ROUTER 是 ZMQ 中 唯一 一 个 可 以 定位 消息 来 源 的 套 接 字 。 


我 们 对 请 求 -应 答 模式 下 的 路 由 做 一 个 小 结 : 


e 对 于 瞬时 的 套 接 字 ，ROUTER 会 动态 生成 一 个 UUID 来 标识 它 ， 因 此 从 
ROUTER 中 获取 到 的 消息 里 会 包含 这 个 标识 ; 
e 对 于 持久 的 套 接 字 ， 可 以 自 定义 标识 ，ROUTER 会 如 直接 将 该 标识 放 入 消息 之 


e 具有 显 式 声明 标识 的 节点 可 以 连接 到 其 他 类 型 的 套 接 字 ; 
e 节点 可 以 通过 配置 文件 等 机 制 提 前 获知 对 方 节点 的 标识 ， 作 出 相应 的 处 理 。 


我 们 至 少 有 三 种 模式 来 实现 和 ROUTER 的 连接 : 


e ROUTER-DEALER 
e ROUTER-REQ 
e ROUTER-REP 


每 种 模式 下 我 们 都 可 以 完全 掌控 消息 的 路 由 方式 ， 但 不 同 的 模式 会 有 不 一 样 的 应 用 
场景 和 消息 流 ， 下 一 节 开 始 我 们 会 逐一 解释 。 


自 定 义 路 由 也 有 一 些 注意 事项 : 


e 自 定 义 路 由 让 节点 能 够 控制 消息 的 去 向 ， 这 一 点 有 悖 gMQ 的 规则 。 使 用 自 定 义 
路 由 的 唯一 理由 是 MQ 缺乏 更 多 的 路 由 算法 供 我 们 选择 ; 

e 未 来 的 @MQ 版 本 可 能 包含 一 些 我 们 自 定义 的 路 由 方式 ， 这 意味 着 我 们 现在 设计 
的 代码 可 能 无 法 在 新 版 本 的 GBMQ 中 运行 ， 或 者 成 为 一 种 多 余 ; 

e 内 置 的 路 由 机 制 是 可 扩展 的 ， 且 对 装置 友好 ， 但 自 定义 路 由 就 需要 自己 解决 这 


些 问题 。 


所 以 说 自 定义 路 由 的 成 本 是 比较 高 的 ， 更 多 情况 下 应 当 交 由 gMQ 来 完成 。 不 过 既然 
我 们 已 经 讲 到 这 儿 了 ， 就 继续 深入 下 去 吧 | 


ROUTER-DEALER 路 由 


ROUTER-DEALDER 是 一 种 最 简单 的 路 由 方式 。 将 ROUTER 和 多 个 DEALER 相 连 
接 ， 用 一 种 合适 的 算法 来 决定 如 何 分 发 消息 给 DEALER 。 vedo 以 是 一 个 黑洞 
(只 负责 处 理 消 息 ， 不 给 任何 返回 ) 、 代 理 (将 消息 转发 给 其 他 节点 ) 或 是 服务 

( 会 发 送 返 回信 息 心 ) e 


如 果 你 要 求 DEALER 能 够 进行 回复 ， 那 就 要 保证 只 有 一 个 ROUTER 连 接 到 
DEALER DE rc t T E 
ER NUM ， 将 消息 分 发 出 去 。 但 如 果 DEALER 是 一 个 黑洞 ， 那 就 可 以 连接 任何 
数量 的 节 


ROUTER-DEALER 路 由 可 以 用 来 做 什么 呢 ? 如 果 DEALER 会 将 它 完 成 任务 的 时 间 
回复 给 ROUTER， 那 ROUTER 就 可 以 知道 这 个 DEALER 的 处 理 速度 有 多 快 了 。 因 
为 ROUTER 和 DEALER 都 是 异步 的 套 接 字 ， 所 以 我 们 要 用 zmq_poll() 来 处 理 这 种 情 
JL ° 


下 面 例子 中 的 两 个 DEALER 不 会 返回 消息 给 ROUTER， 我们 的 路 由 采用 加 权 随 机 算 
法 : 发 送 两 倍 多 的 信息 给 其 中 的 一 个 DEALER 。 





Client Send to "A" or "B" 


ROUTER 





DEALER DEALER 
WAS "B" 





Figure 5 一 Router to dealer custom routing 
rtdealer.c 
Mik 
// 自 定义 ROUTER-DEALER 路 由 
V 
// 这 个 实例 是 单个 进程 ， 这 样 方便 启动 。 
// 每 个 线程 都 有 自己 的 ZMQ 上 下 文 ， 所 以 可 以 认为 是 多 个 进程 在 运行 


#include "zhelpers.h" 
4include <pthread. h> 


// 这 里 定义 了 两 个 Worker， 其 代码 是 一 样 的 。 
2 

static void * 

worker task a (void *args) 


i 
void *context - zmq init (1); 
void *worker - zmq socket (context, ZMQ DEALER); 
zmq setsockopt (worker, ZMQ IDENTITY, "A", 1); 
zmq connect (worker, "ipc://routing.ipc"); 
int total - 0; 
while (1) { 
// 我 们 只 接受 到 消息 的 第 二 部 分 
char *request = s recv (worker); 
int finished - (strcmp (request, "END") -- 0); 
free (request); 
if (finished) { 
printf ("A received: %d\n", total); 
break; 
Jj 
total++; 
} 
zmq close (worker); 
zmq term (context); 
return NULL; 
} 


statie vordii 

worker_task_b (void *args) 

{ 
void *context = zmq init (1); 
void *worker - zmq socket (context, ZMQ DEALER); 
zmq setsockopt (worker, ZMQ IDENTITY, "B", 1); 
zmq connect (worker, "ipc://routing.ipc"); 


int total - 0; 
while (1) { 
// 我 们 只 接受 到 消息 的 第 二 部 分 
char *request = s_recv (worker); 
int finished = (strcmp (request, "END") == 0); 
free (request); 
if (finished) ( 
printf ("B received: %d\n", total); 
break; 
} 
total++; 
J 
zmq close (worker); 
zmq term (context); 
return NULL; 


int main (void) 


{ 
void *context = zmq_init (1); 
void *client = zmq socket (context, ZMQ ROUTER); 
zmq bind (client, "ipc://routing.ipc"); 
pthread t worker; 
pthread create (&worker, NULL, worker task a, NULL); 
pthread create (&worker, NULL, worker task b, NULL); 
// 等 待 线程 连接 至 套 接 字 ， 和 否则 我 们 发 送 的 消息 将 不 能 被 正确 路 由 
sleep (1); 
// 发 送 10 个 任务 ， 给 A 两 倍 多 的 量 
int task nbr; 
srandom ((unsigned) time (NULL)); 
for (task nbr = 0; task nbr < 10; task nbr++) ( 
// 发 送 消息 的 两 个 部 分 : 第 一 部 分 是 目标 地 址 
if (randof (3) > 0) 
s sendmore (client, "A"); 
else 
s sendmore (client, "B"); 
// 然后 是 任务 
s send (client, "This is the workload"); 
} 
s sendmore (client, "A"); 
s send (client, "END"); 
s sendmore (client, "B"); 
s send (client, "END"); 
zmq close (client); 
zmq term (context); 
return 0; 
} 


对 上 述 代 码 的 两 点 说 明 : 


e ROUTER 并 不 知道 DEALER 何 时 会 准备 好 ， 我 们 可 以 用 信号 机 制 来 解决 ， 但 为 
了 不 让 这 个 例子 太 过 复杂 ， 我 们 就 用 sleep(1) 的 方式 来 处 理 。 如 果 没 有 这 你 
话 ， 那 ROUTER 一 开始 发 出 的 消息 将 无 法 被 路 由 ，gMQ 会 丢弃 这 些 消息 。 

e 需要 注意 的 是 ， 除 了 ROUTER 会 丢弃 无 法 路 由 的 消息 外 ，PUB 套 接 字 当 没 有 
SUB 连 接 它 时 也 会 丢弃 发 送出 去 的 消息 。 其 他 套 接 字 则 会 将 无 法 发 送 的 消息 存 
储 起 来 ， 直 到 有 节点 来 处 理 它们 。 


在 将 消息 路 由 给 DEALER 时 ， 我 们 手工 建立 了 这 样 一 个 信封 : 





Frame 1 Address 
Figure6 — Routing envelope for dealer 


ROUTER 套 接 字 会 移 除 第 一 帧 ， 只 将 第 二 帧 的 内 容 传递 给 相应 的 DEALER 。 当 
DEALER 发 送 消息 给 ROUTER 时 ， 只 会 发 送 一 帧 ，ROUTER 会 在 外 层 包 训 一 个 信 
封 (添加 第 一 帧 ) ， 返 回 给 我 们 。 


如 果 你 定义 了 一 个 非法 的 信封 地 址 ，ROUTER 会 直接 丢弃 该 消息 ， 不 作 任 何 提 示 。 
对 于 这 一 点 我 们 也 无 能 为 力 ， 因 为 出 现 这 种 情况 只 有 两 种 可 能 ， 一 是 要 送 达 的 目标 
节点 不 复 存 在 了 ， 或 是 程序 中 错误 地 指定 了 目标 地 址 。 如 何 才 能 知道 消息 会 被 正确 
地 路 由 ? 唯一 的 方法 是 让 路 由 目标 发 送 一 些 反 馈 消 息 给 我 们 。 后 面 几 章 会 讲述 这 一 
点 o 


DEALER 的 工作 方式 就 像 是 PUSH 和 PULL 的 结合 。 但 是 ， 我 们 不 能 用 PULL 或 
PUSH 去 构建 请 求 -应 答 模式 。 


最 近 最 少 使 用 算法 路 由 (LRU 模式 ) 


我 们 之 前 讲 过 REQ 套 接 字 永远 是 对 话 的 发 起 方 ， 然 后 等 待 对 方 回答 。 这 一 特性 可 以 
让 我 们 能 够 保持 多 个 REQ 套 接 字 等 待 调 配 。 换 和 句 话说 ，REQ 套 接 字 会 告诉 我 们 它 已 
经 准备 好 了 。 


你 可 以 将 ROUTER 和 多 个 REQ 相 和 连 ， 请 求 -应 答 的 过 程 如 下 : 


REQ 发 送 消息 给 ROUTER 
ROUTER 和 返回 消息 给 REQ 
REQ 发 送 消息 给 ROUTER 
ROUTER 和 返回 消息 给 REQ 


和 DEALER 相 同 ，REQ 只 能 和 一 个 ROUTER 连 接 ， 除 非 你 想 做 类 似 多 路 宛 余 路 由 这 
样 的 事 (我 甚至 不 想 在 这 里 解释 ) ， 其 复杂 度 会 超过 你 的 想象 并 迫使 你 放弃 的 。 





Client Send to "A" or "B" 


ROUTER 





(1) Mama says Hi 
(2) Router gives laundry 


Figure7 — Router to mama custom routing 


ROUTER-REQ 模 式 可 以 用 来 做 什么 ? 最 常用 的 做 法 就 是 最 近 最 少 使 用 算法 
(LRU) 路 由 了 ，ROUTER 发 出 的 请 求 会 让 等 待 最 久 的 REQ 来 处 理 。 请 看 示例 : 





YM 

// 自 定 义 ROUTER-REQ 路 由 
fi 

#include "zhelpers.h" 
#include <pthread. h> 


#define NBR WORKERS 10 


static void * 

worker task(void *args) ( 
void *context - zmq init(1); 
void *worker - zmq socket(context, ZMQ REQ); 
// Ss_Set_id( ) 元 数 会 根据 套 接 字 生成 一 个 可 打印 的 字符 串 ， 
// 并 以 此 作为 该 套 接 字 的 标识 。 
s set id(worker); 
zmq connect(worker, "ipc://routing.ipc"); 


int total - 0; 

while (1) ( 
// 告诉 ROUTER 我 已 经 准备 好 了 
s send(worker, "ready"); 


// 从 ROUTER 中 获取 工作 ， 直 到 收 到 结束 的 信息 
char *workload = s recv(worker); 
int finished - (strcmp(workload, "END") -- 0); 
free(workload); 
if (finished) ( 
printf("Processed: %d tasksWNn", total); 
break; 


} 


total++; 


// 随机 等 待 一 段 时 间 
s sleep(randof(1000) + 1); 
} 
zmq close(worker); 
zmq term(context); 
return NULL; 


int main(void) { 
void *context = zmq init(1); 
void *client - zmq socket(context, ZMQ ROUTER); 
zmq bind(client, "ipc://routing.ipc"); 
srandom((unsigned) time(NULL)); 


int worker nbr; 
for (worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) ( 
pthread t worker; 
pthread create(&worker, NULL, worker task, NULL); 
J 
int task nbr; 
for (task nbr = 0; task nbr < NBR WORKERS * 10; task nbr--*) ( 
// 最 近 最 少 使 用 的 worker 就 在 消息 队列 中 
char *address = s recv(client); 
char *empty - s recv(client); 
free(empty); 
char *ready - s recv(client); 
free(ready); 


s sendmore(client, address); 
s sendmore(client, ""); 
s send(client, "This is the workload"); 
free(address); 

} 

// 通知 所 有 REQ 套 接 字 结 束 工 作 

for (worker nbr = 0; worker nbr < NBR WORKERS; worker_nbr++) { 
char *address - s recv(client); 
char *empty - s recv(client); 
free(empty); 
char *ready - s recv(client); 
free(ready); 


s sendmore(client, address); 
s sendmore(client, ""); 
s send(client, "END"); 
free(address); 

} 

zmq close(client); 

zmq term(context); 

Igel 





E = s] 


在 这 个 示例 中 ， 实 现 LRU 算 法 并 没有 用 到 特别 的 数据 结构 ， 因 为 GMQ 的 消息 队列 机 
制 已 经 提供 了 等 价 的 实现 。 一 个 更 为 实际 的 LRU 算 法 应 该 将 已 准备 好 的 worker 收 集 
起 来 ， 保 存在 一 个 队列 中 进行 分 配 。 以 后 我 们 会 讲 到 这 个 例子 。 

程序 的 运行 结果 会 将 每 个 worker 的 执行 次 数 打 印 出 来 。 由 于 REQ 套 接 字 会 随机 等 待 
一 段 时 间 ， 而 我 们 也 没有 做 负载 均衡 ， 所 以 我 们 希望 看 到 的 是 每 个 worker 执 行 相近 
的 工作 量 。 这 也 是 程序 执行 的 结果 。 





Processed: 
Processed: 
Processed: 
Processed: 
Processed: 
Processed: 
Processed: 
Processed: 
Processed: 


8 tasks 
8 tasks 
11 tasks 
7 tasks 
9 tasks 
11 tasks 
14 tasks 
11 tasks 
11 tasks 


Processed: 10 tasks 


关于 以 上 代码 的 几 点 说 明 : 


。 我 们 不 需要 像 前 一 个 例子 一 样 等待 一 段 时 间 ， 因 为 REQ 套 接 字 会 明确 告诉 
ROUTER 它 已 经 准备 好 了 。 

e 我 们 使 用 了 zhelpers.h 提 供 的 s_set id() 函 数 来 为 套 接 字 生 成 一 个 可 打印 的 字符 
串 标 识 ， 这 是 为 了 让 例子 简单 一 些 。 在 现实 环境 中 ，REQ 套 接 字 都 是 匿名 的 ， 
你 需要 直接 调用 zmq_recv() 和 zmq_send() 来 处 理 消 息 ， 因 为 s_recv() 和 
s_send() 只 能 处 理 字 符 串 标识 的 套 接 字 。 

。 更 糟 的 是 ， 我 们 使 用 了 随机 的 标识 ， 不 要 在 现实 环境 中 使 用 随机 标识 的 持久 套 
接 字 ， 这 样 做 会 将 节点 消耗 殉 尽 。 

e 如 果 你 只 是 将 上 面 的 代码 拷贝 过 来 ， 没 有 充分 理解 ， 那 你 就 像 是 看 到 览 蛛 人 从 
屋顶 上 飞 下 来 ， 你 也 照 着 做 了 ， 后 果 自 负 吧 。 


在 将 消息 路 由 给 REQ 套 接 字 时 ， 需 要 注意 一 定 的 格式 ， 即 地 址 - 空 帧 -消息 : 













Frame 1 Address 
Frame 2 «— —— Empty message part 
Frame 3 

Figure8 — Routing envelope for mama (REQ) 


使 用 地 址 进行 路 由 


在 经 典 的 请 求 - 应 答 模 式 中 ，ROUTER 一 般 不 会 和 REP 套 接 字 通 信 ， 而 是 由 
DEALER 去 和 REP 通 信 。DEALER 会 将 消息 随机 分 发 给 多 个 REP， 并 获得 结果 。 
ROUTER 更 适合 和 REQ 套 接 字 通信 。 

我 们 应 该 记 住 ，GMQ 的 经 典 模 型 往往 是 运行 得 最 好 的 ， 毕 竞 人 走 得 多 的 路 往往 是 条 
好 路 ， 如 果 不 按 常理 出 牌 ， 那 很 有 可 能 会 跌 入 无 敌 深 漂 。 下 面 我 们 就 将 ROUTER 和 
REP 进 行 连接 ， 看 看 会 发 生 什么 。 


REP 套 接 字 有 两 个 特点 : 


e 它 需 要 完成 完整 的 请 求 -应 答 周 期 ; 
e 它 可 以 接受 任意 大 小 的 信封 ， 并 能 完整 地 返回 该 信封 。 


在 一 般 的 请 求 -应 答 模 式 中 ，REP 是 匿名 的 ， 可 以 随时 替换 。 因 为 我 们 这 里 在 将 自 定 
义 路 由 ， 就 要 做 到 将 一 条 消息 发 送 给 REP A， 而 不 是 REPB。 这 样 才 能 保证 网 络 的 
一 端 是 你 ， 另 一 端 是 特定 的 REP。 


GMQ 的 核心 理念 之 一 是 周边 的 节点 应 该 尽 可 能 的 智能 ， 且 数量 众多 ， 而 中 间 件 则 是 
固定 和 简单 的 。 这 就 意味 着 周边 节点 可 以 向 其 他 特定 的 节点 发 送 消息 ， 比 如 可 以 连 
接 到 一 个 特定 的 REP。 这 里 我 们 先 不 讨论 如 何在 多 个 节点 之 间 进 行路 由 ， 只 看 最 后 
一 步 中 ROUTER 如 何 和 特定 的 REP 通 信 的 。 
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Figure9 — Router to papa custom routing 


这 张 图 描述 了 以 下 事件 : 

e client 有 一 条 消息 ， 将 来 会 通过 另 一 个 ROUTER 将 该 消息 发 送 回去 。 这 条 信 
包含 了 两 个 地 址 、 一 个 室 帧 、 以 及 消息 内 容 ; 
client 将 该 条 消息 发 送 给 了 ROUTER ， 并 指定 了 REP 的 地 址 ; 
ROUTER 将 该 地 址 移 去 ， 并 以 此 决定 其 下 哪个 REP 可 以 获得 该 消息 ; 
REP 收 到 该 条 包含 地 址 、 空 帧 、 以 及 内 容 的 消息 : 
REP 将 空 帧 之 前 的 所 有 内 容 移 去 ， 交 给 worker 去 处 理 消息 ; 
Worker 处 理 完成 后 将 回复 交 给 REP ; 
REP 将 之 前 保存 好 的 信封 包 庄 住 该 条 回复 ， 并 发 送 给 ROUTER ; 
ROUTER 在 该 条 回复 上 又 添加 了 一 个 注 明 REP 的 地 址 的 帧 。 


p 
Pu 
wl 

(m 


这 个 过 程 看 起 来 很 复杂 ， 但 还 是 有 必要 取 了 解 清楚 的 。 只 要 记 住 ，REP 套 接 字 会 原 
封 不 动 地 将 信封 返回 回去 。 


rtpapa.c 
/ / 
// BE XiROUTER-REPZ dH 
A 


#include "zhelpers.h" 


// 这 里 使 用 一 个 进程 来 强调 事件 发 生 的 顺序 性 
int main (void) 


{ 
void *context = zmq_init (1); 
void *client = zmq socket (context, ZMQ ROUTER); 
zmq bind (client, "ipc://routing.ipc"); 
void *worker - zmq socket (context, ZMQ REP); 
zmq setsockopt (worker, ZMQ IDENTITY, "A", 1); 
zmq connect (worker, "ipc://routing.ipc"); 
// 等待 worker 连 接 
sleep (1); 
// 发 送 REP 的 标识 、 地 址 、 空 帧 、 以 及 消息 内 容 
s sendmore (client, "A"); 
s sendmore (client, "address 3"); 
s sendmore (client, "address 2"); 
s sendmore (client, "address 1"); 
s sendmore (client, ""); 
s send (client, "This is the workload"); 
// worker 只 会 得 到 消息 内 容 
s dump (worker); 
// worker 不 需要 处 理 信封 
s send (worker, "This is the reply"); 
// 看 看 ROUTER 里 收 到 了 什么 
s dump (client); 
zmq close (client); 
zmq close (worker); 
zmq term (context); 
returni (078 
} 


运行 结果 


[001] A 

[009] address 3 

[009] address 2 

[009] address 1 

[000] 

[017] This is the reply 


关于 以 上 代码 的 几 点 说 明 : 


e. 在 现实 环境 中 ，ROUTER 和 REP 套 接 字 处 于 不 同 的 节点 。 本 例 没有 启用 多 进 
程 ， 为 的 是 让 事件 的 发 生 顺 序 更 为 清楚 。 


ezmq_connect() 并 不 是 瞬间 完成 的 ，REP 和 ROUTER 连 接 的 时 候 是 会 花费 一 些 
时 间 的 。 在 现实 环境 中 ，ROUTER 无 从 得 知 REP 是 否 已 经 连接 成 功 了 ， 除 非得 
到 REP 的 某 些 回应 。 本 例 中 使 用 sleep(1) 来 处 理 这 一 问题 ， 如 果 不 这 样 做 ， 那 
REP 将 无 法 获得 消息 (自己 尝试 一 下 吧 ) 。 


e 我 们 使 用 REP 的 套 接 字 标 识 来 进行 路 由 ， 如 果 你 不 信 ， 可 以 将 消息 发 送 给 B， 
看 看 A 能 不 能 收 到 。 

e 本 例 中 的 s_dump() 等 函数 来 自 于 zhelpers.h 文 件 ， 可 以 看 到 在 进行 套 接 字 连 接 
时 代码 都 是 一 样 的 ， 所 以 我 们 才能 在 @MQ API 的 基础 上 搭建 上 层 的 API 。 等 今 
后 我 们 讨论 到 复杂 应 用 程序 的 时 候 再 详细 说 明 。 


要 将 消息 路 由 给 REP， 我 们 需要 创建 它 能 辨别 的 信封 : 













Frame 1 Address «— Zero or more of these 
Frame 2 «—— —— Exactly one empty message part 
Frame 3 

Figure 10 — Routing envelope for papa aka REP 


请 求 -应 答 模式 下 的 消息 代理 


这 一 节 我 们 将 对 如 何 使 用 OMQ 消 息 信 封 做 一 个 回顾 ， 并 尝试 编写 一 个 通用 的 消息 代 
理 装置 。 我 们 会 建立 一 个 队列 装置 来 连接 多 个 client 和 worker， 装 置 的 路 由 算法 可 以 
由 我 们 自己 决定 。 这 里 我 们 选择 最 近 最 少 使 用 算法 ， 因 为 这 和 负载 均衡 一 样 比较 实 
用 。 


首先 让 我 们 回顾 一 下 经 典 的 请 求 -应 答 模型 ， 尝 试用 它 建立 一 个 不 断 增长 的 巨型 服务 
网 络 。 最 基本 的 请 求 -应 答 模型 是 : 





Figurell 一 Basic request reply 


这 个 模型 支持 多 个 REP 套 接 字 ， 但 如 果 我 们 想 支持 多 个 REQ 套 接 宁 ， 就 需 ea 
人 它 通常 是 ROUTER 和 DEALER 的 结合 体 ， 简 单 将 两 个 套 接 字 之 间 的 信 ， 
进行 搬运 ， 因 此 可 以 用 现成 的 ZMQ_QUEUE 装 置 来 实现 : 


了 汪汪 TO anan ooA + 
| Client | | Client | | Client | 
Pee WR ceres eos PEN e 十 
| REQ | | REQ | | REQ | 
ud MD oid Ho oai 
| | | 
d n oaoa ce Ee 十 
| 
下 
| ROUTER | 
lj 十 
| Device | 
下 十 
| DEALER | 
R---R----4 
| 
Jueces eee est I ced 十 
| | | 
a aana eonan eue uadit eu: 
| REP | | REP | | REP | 
seien 下 Ws cbe eee 十 
| worker | | Worker | | Worker | 
dece ce T aona naoo PEN C 十 


Figure # - Stretched request-reply 


这 种 结构 的 关键 在 于 ，ROUTER 会 将 消息 来 自 哪个 REQ 记 录 下 来 ， 生 成 一 个 信封 。 
DEALER 和 REP 套 接 字 在 传输 消息 的 过 程 中 不 会 丢弃 或 更 改 信 封 的 内 容 ， 这 样 当 消 
息 返回 给 ROUTER 时 ， 它 就 知道 应 该 发 送 给 哪个 REQ 了 。 这 个 模型 中 的 REP 套 接 
字 是 匿名 的 ， 并 没有 特定 的 地 址 ， 所 以 只 能 提供 同一 种 服务 。 


上 述 结 构 中 ， 对 REP 的 路 由 我 们 使 用 了 DEADER 自 带 的 负载 均衡 算法 。 人 但是， 我 们 
想 用 LRU 算 法 来 进行 路 由 ， 这 就 要 用 到 ROUTER-REP 模 式 : 
















Client Client Client 












ROUTER Frontend 
ROUTER Backend 


Figure 12 — Stretched request-reply with LRU 


这 个 ROUTER-ROUTER 的 LRU 队 列 不 能 简单 地 在 两 个 套 接 字 间 搬运 消息 ， 以 下 代 
码 会 比较 复杂 ， 不 过 在 请 求 -应 答 模式 中 复 用 性 很 高 。 


Iruqueue.c 


// ”使 用 LRU 算 法 的 装置 
// ” client 和 worker 处 于 不 同 的 线程 中 


#include "zhelpers.h" 
#include <pthread.h> 


#define NBR_CLIENTS 10 
#define NBR WORKERS 3 


// 出 队 操作 ， 使 用 一 个 可 存储 任何 类 型 的 数组 实现 
Zdefine DEQUEUE(q) memmove (&(q)[0], &(q)[1], sizeof (q) - sizeof | 


// 使 用 REQ 套 接 字 实现 基本 的 请 求 -应 答 模式 
// 由 于 s_send() 和 s_recv() 不 能 处 理 0MQ 的 三 进 制 套 接 字 标 识 ， 
// 所 以 这 里 会 生成 一 个 可 打印 的 字符 串 标识 。 


statie vondi i 

client task (void *args) 

{ 
void *context = zmq init (1); 
void *client - zmq socket (context, ZMQ REQ); 
s set id (client); // 设置 可 打印 的 标识 
zmq connect (client, "ipc://frontend.ipc"); 


// 发 送 请 求 并 获取 应 答 信息 

s send (client, "HELLO"); 

char *reply - s recv (client); 
printf ("Client: 9$sNn", reply); 
free (reply); 

zmq close (client); 

zmq term (context); 

return NULL; 


j 


// worker 使 用 REQ 套 接 字 实现 LRU 算 法 
YA 

static void * 

worker_task (void *args) 


{ 
void *context = zmq_init (1); 
void *worker = zmq socket (context, ZMQ REQ); 
s set id (worker); // 设置 可 打印 的 标识 
zmq connect (worker, "ipc://backend.ipc"); 
// 告诉 代理 Worker 已 经 准备 好 
s send (worker, "READY"); 
while (1) { 
// ”将 消息 中 空 帧 之 前 的 所 有 内 容 (信封 ) 保存 起 来 ， 
// 本 例 中 空 帧 之 前 只 有 一 帧 ， 但 可 以 有 更 多 。 
char *address = s recv (worker); 
char *empty - s recv (worker); 
assert (*empty -- 09); 
free (empty); 
// ”获取 请 求 ， 并 发 送 回 应 
char *request = s_recv (worker); 
printf ("Worker: %s\n", request); 
free (request); 
s sendmore (worker, address); 
s sendmore (worker, ""); 
s send (worker, "OK"); 
free (address); 
J 
zmq close (worker); 
zmq term (context); 
return NULL; 
} 


int main (void) 


// ”准备 0OMQ 上 下 文 和 套 接 字 

void *context = zmq init (1); 

void *frontend - zmq socket (context, ZMQ ROUTER); 
void *backend = zmq socket (context, ZMQ ROUTER); 
zmq bind (frontend, "ipc://frontend.ipc"); 


zmq bind (backend,  "ipc://backend.ipc"); 


int client nbr; 

for (client nbr = 0; client nbr < NBR CLIENTS; client nbr-*-) ( 
pthread t client; 
pthread create (&client, NULL, client task, NULL); 

} 

int worker nbr; 

for (worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) { 
pthread t worker; 
pthread create (&worker, NULL, worker task, NULL); 


} 

// LRU 逻辑 

// - 一 直 从 backend 中 获取 消息 ; Eg 483 — worker E RE ZA frontend AJ 
// - 当 Wwoker 回 应 时 ， 会 将 该 Worker 标 记 为 已 准备 dk 并 转发 Woker 的 回应 给 cl 
// - 如 果 client 发 送 了 请 求 ， 就 将 该 请 求 转发 给 下 一 个 worker 


// 存放 可 用 worker 的 队列 
int available workers = 0; 
char *worker queue [10]; 


while (1) { 
zmq pollitem t items [] = ( 
{ backend, ©, ZMQ POLLIN, © }, 
{ frontend, ©, ZMQ POLLIN, 0 } 
3 


zmq poll (items, available workers? 2: 1, -1); 


// &b3- backend T worker 8j B. 7| 
if (items [0].revents & ZMQ POLLIN) { 
// 将 worker 的 地 址 入 队 
char *worker addr = s recv (backend); 
assert (available workers « NBR WORKERS); 
worker queue [available workers--] = worker addr; 


// Ski Ede 


char *empty - s recv (backend); 
assert (empty [0] -- 0); 
free (empty); 


// 第 三 帧 是 “READY7 或 是 一 个 cLient 的 地 址 
char *client addr = s recv (backend); 


// ”如 果 是 一 个 应 答 消 息 ， 则 转发 给 client 
if (strcmp (client addr, "READY") != 0) ( 
empty = s recv (backend); 
assert (empty [0] == 9); 
free (empty); 
char *reply - s recv (backend); 
s sendmore (frontend, client addr); 
s sendmore (frontend, ""); 
s send (frontend, reply); 


free (reply); 
if (--client nbr == 0) 
break; // 处 理 N 条 消息 后 退出 
} 
free (client addr); 
} 
if (items [i].revents & ZMQ POLLIN) ( 
// 获取 下 三 Ks dde uM 交 给 空闲 的 Worker 处 理 
// client 请 求 的 消息 格式 是 : [client] [EM] [请求 内 容 ] 
char - s recv (frontend); 
char *empty - s recv (frontend); 
assert (empty [0] -- 0); 
free (empty); 
char *request - s recv (frontend); 


s sendmore (backend, worker queue [0]); 
s sendmore (backend, '""); 

s sendmore (backend, client addr); 

s sendmore (backend, '""); 

s send (backend, request); 


free (client addr); 
free (request); 


// ”将 该 Worker 的 地 址 出 队 
free (worker queue [0]); 
DEQUEUE (worker queue); 
available workers--; 
} 

} 

zmq_close (frontend); 

zmq close (backend); 

zmq term (context); 

rae teu 





这 段 程序 有 两 个 关键 点 : 1、 各 个 套 接 字 是 如 何 处 理 信封 的 ; 2、LRU 算 法 。 我 们 先 
来 看 信封 的 格式 。 


我 们 知道 REQ 套 接 字 在 发 送 消息 时 会 向 头 部 添加 一 个 空 帧 ， 接 收 时 又 会 自动 移 除 。 
我 们 要 做 的 就 是 在 传输 消息 时 满足 REQ 的 要 求 ， 处 理 好 空 帧 。 另 外 还 要 注意 ， 
ROUTER 会 在 所 有 收 到 的 消息 前 添加 消息 来 源 的 地 址 。 


现在 我 们 就 将 完整 的 请 求 -应 答 流 程 走 一 遍 Lures s LM 
ZI "CLIENT" > worker&j i£ 7Z; WORKER" » AT Xclient iX & 7H A 


Frame 1 5 HELLO | Data part 


Figure13 — Message that client sends 





代理 从 ROUTER 中 获取 到 的 消息 格式 如 下 








Frame 1 CLIENT Identity of client 
Frame 2 Empty message part 
Frame 3 Data part 

Figure 14 — Message coming in on frontend 


A38 2- M LRURE. Z) P 3x X — 4-7 Rwoker&' aua » 4E A iè IH Za d TREE o ded 
ROUTER 。 注 意 要 添加 一 个 空 帧 。 








Frame 1 WORKER Identity of worker 
Frame 2 Empty message part 
Frame 3 Identity of client 
Frame 4 Empty message part 
Frame 5 Data part 

Figure 15 — Message sent to backend 


REQ (worker) 收 到 消息 时 ， 会 将 信封 和 空 帧 移 去 : 








Frame 1 CLIENT Identity of client 
Frame 2 Empty message part 
Frame 3 Data part 

Figure 16 — Message delivered to worker 


可 以 看 到 ，worker 收 到 的 消息 和 client 端 ROUTER 收 到 的 消息 是 一 致 的 。worker 需 
要 将 该 消息 中 的 信封 保存 起 来 ， 只 对 消息 内 容 做 操作 。 


在 返回 的 过 程 中 : 


e Worker 通 过 REQ 传 输 给 device 消 息 [client 地 址 ][ 空 帧 [应答 内 容 ] ; 
e device 从 worker 端 的 ROUTER 中 获取 到 [worker 地 址 ][ 空 帧 ][client 地 址 ][ 空 帧 ][ 应 
答 内 容 ] ; 
e device woken tiL REER: 并 发 送 [client 地 址 ][ 空 帧 ][ 应 答 内 容 ] 给 client 端 的 
ROUTER ; 
eclient 从 REQ 中 获得 到 [应 答 内 容 ]。 


后 再 看 看 LRU 算 法 ， 它 要 求 client 和 worker 都 使 用 REQ 和 套 接 字 ， 并 正确 的 存储 和 
返回 消息 信封 ， 具 体 如 下 : 


e 创建 一 组 poll， 不 断 地 从 backend 〈worker 端 的 ROUTER ) 获取 消息 ; 只 有 当 
有 空闲 的 worker 时 才 从 frontend (client 端 的 ROUTER) 获取 消息 ; 


o 循环 执 行 poll 


e 如 果 backend 有 消息 ， 只 有 两 种 情况 : 1) READY 消 息 (该 Worker 已 准备 好 ， 
等 待 分 配 ) :2) 应 答 消息 (需要 转发 给 全 Client ) 。 两 种 情况 下 我 们 都 会 保存 
worker 的 地 址 ， 放 入 LRU 队 列 中 ， 如 果 有 应 答 内 容 ， 则 转发 给 相应 的 client 。 


e 如 果 frontend 有 消息 ， 我 们 从 LRU 队 列 中 取出 下 一 个 worker， 将 该 请 求 发送 给 
它 。 这 就 需 要 发 送 [Worker 地 址 ][ 空 帧 [client 地 址 ][ 空 帧 ][ 请 求 内 容 ] 到 worker 端 的 
ROUTER ° 


算法 进行 扩展 ， 如 在 Worker 局 动 时 做 一 个 自我 测试 ， 计 算出 自身 的 处 
速度 ， 并 随 READY 消 息 发 送 给 代理 ， 这 样 代理 在 分 配 工作 时 就 可 以 做 相应 的 安 
GMQ 上 层 API 的 封装 


使 用 GMQ 提 供 的 API 操 作 多 段 消 息 时 是 很 麻烦 的 ， 如 以 下 代码 : 


while (1) t 


py i i Z s 自 wu s 
as] ^" E 





YY 本 例 * 月 月 TY | 一 NEUE EA 
char *address - S recv (worker); 
char *empty - s recv (worker); 
assert (*empty -- 0); 

free (empty); 


// 获取 请 求 ， 并 发 送 回 应 

char *request = s_recv (worker); 
printf ("Worker: %s\n", request); 
free (request); 

s_sendmore (worker, address); 

s sendmore (worker, ""); 

s send (worker, "OK"); 

free (address); 


这 段 代码 不 满足 重用 的 需求 ， 因 为 它 只 能 处 理 一 个 帧 的 信封 。 事 实 上 ， 以 上 代码 已 
经 做 了 一 些 封装 了 ， 如 果 调 用 GMQ 底 层 的 API 的 话 ， 代 码 就 会 更 加 匈 长 : 


while (1) n 





// E 

zmq | msg. t address; 

zmq msg init (&address); 

zmq recv (worker, &address, 9); 


zmq msg t empty; 

zmq msg init (&empty); 

zmq recv (worker, &empty, 9); 
// 获取 请 求 ， 并 发 送 回应 

zmq msg t payload; 

zmq msg init (&payload); 

zmq recv (worker, &payload, 9); 


int char_nbr; 

printf ("Worker: "); 

for (char nbr = 0; char nbr < zmq msg size (&payload); char nbi 
printf ("%c", *(char *) (zmq msg data (&payload) + char nbi 

przntt (Nn) 


zmq msg init size (&payload, 2); 
memcpy (zmq msg data (&payload), "OK", 2); 


zmq send (worker, &address, ZMQ SNDMORE); 
zmq close (&address); 

zmq send (worker, &empty, ZMQ SNDMORE); 
zmq close (&empty); 

zmq send (worker, &payload, 9); 

zmq close (&payload); 





我 们 理想 中 的 API 是 可 以 一 步 接 收 和 处 理 完 整 的 消息 ， cM 。GMQ 底 层 的 API 
并 不 是 为 此 而 涉及 的 ， 但 我 们 可 以 在 它 上 层 做 进一步 的 封装 ， 这 也 是 学 习 OMQ 的 过 
程 中 很 重要 的 内 容 。 


想 要 编写 这 样 一 个 API 还 是 很 有 难度 的 ， 因 为 我 们 要 避免 过 于 频繁 地 复制 数据 。 此 
外 ，G@MQ 用 "消息 "来 定义 多 段 消息 和 多 段 消息 中 的 一 部 分 ， 同 时 ， 消 息 又 可 以 是 字 
符 串 消息 或 者 二 进 制 消息 ， 这 也 给 编写 API 增 加 的 难度 。 


解决 方法 之 一 是 使 用 新 的 命名 方式 : 字符 串 (s_send() 和 s_recv() 中 已 经 在 用 
T) Mb (消息 的 一 部 分 ) 、 消 息 (一 个 或 多 个 帧 ) 。 以 下 是 用 新 的 API 重 写 的 
worker : 


while (1) { 


zmsg t *zmsg - zmsg recv (worker); 

zframe print (zmsg last (zmsg), "Worker: "); 
zframe reset (zmsg last (zmsg), "OK", 2); 
zmsg send (&zmsg, worker); 


用 44 行 代码 代 疹 22 行 代码 是 个 不 错 的 选择 ， 而 且 更 容 匆 读 懂 。 栽 们 可 以 用 这 种 理念 
继续 编写 其 他 的 API， 和 硕 望 可 以 实现 以 下 功能 


自动 处 理 套 接 字 。 每 次 都 要 手动 关闭 套 接 字 是 很 麻烦 的 事 ， 手 动 定义 过 期 时 间 
也 不 是 太 有 必要 ， 所 以 ， 如 果 能 在 关闭 上 下 文 时 自动 关闭 套 接 字 就 太 好 了 。 

便捷 的 线程 管理 。 基 本 上 所 有 的 BMQ 应 用 都 会 用 到 多 线程 ， 但 POSIX 的 多 线 
程 接口 用 起 来 并 不 是 太 方 便 ， 所 以 也 可 以 封装 一 下 。 


便捷 的 时 钟 管理 。 想 要 获取 毫秒 数 、 或 是 暂停 运行 几 毫 秒 都 不 太 方便 ， 我 们 的 
API 应 该 提供 这 个 接口 。 


一 个 能 够 替代 zmgq_poll() 的 反应 器 。 Í| 但 比较 策 抽 ， 会 造成 重复 
代码 : 计算 时 间 、 处 理 套 接 字 中 的 信息 等 。 若 有 一 个 简单 的 反应 器 来 处 理 套 接 
字 的 读 写 以 及 时 间 的 控制 ， 将 会 会 很 方便 。 o 


恰当 地 处 理 Ctrl-C 按 键 。 我 么 已 经 看 到 如 何 处 理 中 断 了 ， 最 好 这 一 机 制 可 以 用 
到 所 有 的 程序 里 。 


RT em Noc DURS qt ， 提供 了 很 多 GMQ 的 上 


层 封装 


， 甚至 是 数据 结构 〈 哈 希 、 链 表 等 ) 。 


以 下 是 用 czmq 重 写 的 LRU 代 理 : 


Iruqueue2.c 
t 
// LRU 消息 队列 装置 ， 使 用 czmq 库 实现 
1 


#include "czmq.h" 


#define NBR_CLIENTS 10 
#define NBR_WORKERS 3 


#define LRU_READY "\ 001" // worker 准 备 就 绪 的 信息 
// 使 用 REQ 套 接 字 实现 基本 的 请 求 -应 答 模 式 
1 


static void * 
client task (void *args) 


zctx t *ctx = zctx new (); 
void *client - zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, "ipc://frontend.ipc"); 


// 发 送 请 求 并 接收 应 答 

while (1) ( 
zstr send (client, "HELLO"); 
char *reply - zstr recv (client); 
if (!reply) 

break; 

printf ("Clrent: WsNn", reply); 
free (reply); 
sleep (1); 

} 

zctx destroy (&ctx); 

return NULL; 


j 


// ”worker 使 用 REQ 套 接 字 ， 实 现 LRU 路 由 

// 

static void * 

worker task (void *args) 

{ 
zctx t *ctx = zctx new (); 
void *worker - zsocket new (ctx, ZMQ REQ); 
zsocket connect (worker, "ipc://backend.ipc"); 


// 告知 代理 Worker 已 准备 就 绪 
zframe t *frame = zframe new (LRU READY, 1); 
zframe send (&frame, worker, 0); 


// 接收 消息 并 处 理 

while (1) { 
zmsg t *msg - zmsg recv (worker); 
if (!msg) 

break; // 入 让 

//zframe print (zmsg last (msg), "Worker: "); 
zframe reset (zmsg last (msg), "OK", 2); 
zmsg send (&msg, worker); 

} 

zctx destroy (&ctx); 

return NULL; 


int main (void) 


zctx t *ctx = zctx new (); 

void *frontend - zsocket new (ctx, ZMQ ROUTER); 
void *backend - zsocket new (ctx, ZMQ ROUTER); 

zsocket bind (frontend, "ipc://frontend.ipc"); 

zsocket bind (backend, "ipc://backend.ipc"); 


int client nbr; 

for (client nbr = 0; client nbr < NBR CLIENTS; client nbr--) 
zthread new (ctx, client task, NULL); 

int worker nbr; 

for (worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) 


zthread new (ctx, worker task, NULL); 


// VLRUZE & 


// - 一 直 从 backend 中 获取 消息 ; 当 有 超过 一 个 worker 空 闲 时 才 从 frontend 获 ] 
// - 当 woker 回 应 时 en 务 好 ， 并 转发 WOker 的 回应 给 Cl 
ZI < JdeXclientZ A ix 4f 请 P d 就 4 将 该 请 求 转发 y 2 给 F—^*-worker 


// 存放 可 用 worker 的 队列 
zlist t *workers = zlist new (); 


while (1) ( 
// ”初始 化 p011 
zmq pollitem t items [] = ( 
{ backend, ©, ZMQ POLLIN, © }, 
{ frontend, ©, ZMQ POLLIN, 0 } 


}; 
// ” 当 有 可 用 的 worker 时 ， 从 frontend 获 取消 息 
int rc = zmq poll (items, zlist size (workers)? 2: 1, -1); 
AD re 1 
break; // BI 


// 对 backend 发 来 的 消息 进行 处 理 
if (items [0].revents & ZMQ POLLIN) ( 
// 使 用 worker 的 地 址 进行 LRU 路 由 
zmsg t *msg = zmsg recv (backend); 
if (!msg) 
break; // 中断 
zframe t *address = zmsg unwrap (msg); 
zlist append (workers, address); 


// ”如 果 不 是 READY 消 息 ， 则 转发 给 client 

zframe t *frame = zmsg first (msg); 

if (memcmp (zframe data (frame), LRU READY, 1) -- 0) 
zmsg destroy (&msg); 

else 
zmsg send (&msg, frontend); 


if (items [i].revents & ZMQ POLLIN) { 
// ”获取 client 发 来 的 请 求 ， 转 发 给 worker 
zmsg_t *msg = zmsg_recv (frontend); 
if (msg) { 
zmsg wrap (msg, (zframe t *) zlist pop (workers)); 
zmsg send (&msg, backend); 


} 

} 

// ”如 果 完 成 了 ， 则 进行 一 些 清理 工作 

while (zlist size (workers)) { 
zframe t *frame = (zframe t *) zlist pop (workers); 
zframe destroy (&frame); 

} 

zlist destroy (&workers); 

zctx destroy (&ctx); 


iet 


} 
zj 











czmq 提 供 了 一 个 简单 的 中 断 机 制 ， 当 按 下 Ctrl-C 时 程序 会 终止 gMQ 的 运行 ， 并 返 
回 -1，errno 设 置 为 EINTR。 程 序 中 断 时 ，czmq 的 recv 方 法 会 返回 NULL， 所 以 你 可 
以 用 下 面 的 代码 来 作 判 断 : 


while (1) ( 
zstr send (client, "HELLO"); 
char *reply - zstr recv (client); 
if (!reply) 
break; // 中 断 
printf ("Client: 9jsNn", reply); 
free (reply); 
sleep (1); 


如 果 使 用 zmq_poll() 函 数 ， 则 可 以 这 样 判断 : 


int rc = zmq poll (items, zlist size (workers)? 2: 1, -1); 
if (rc == -1) 
break; // 中 断 


上 例 中 还 是 使 用 了 原生 的 zmq_poll() 方 法 ， 也 可 以 使 用 czmq 提 供 的 zloop 反 应 器 来 
实现 ， 它 可 以 做 到 : 


e 从 任意 套 接 字 上 获取 消息 ， 也 就 是 说 只 要 套 接 字 有 消息 就 可 以 触发 函数 ; 
e 停止 读 取 套 接 字 上 的 消息 ; 
e 设置 一 个 时 钟 ， 定 时 地 读 取 消息 。 


Zloop 内 部 当然 是 使 用 zmq_poll() 实 现 的 ， 但 它 可 以 做 到 动态 地 增 减 套 接 字 上 的 监听 
器 ， 重 构 poll 池 ， 并 根据 poll 的 超时 时 间 来 计算 下 一 个 时 钟 触发 事件 。 
使 用 这 种 反应 器 模式 后 ， 我 们 的 代码 就 更 简洁 了 : 


zloop t *reactor = zloop new (); 

zloop reader (reactor, self-»-backend, s handle backend, self); 
zloop start (reactor); 

zloop destroy (&reactor); 


对 消息 的 实际 处 理 放 在 了 程序 的 其 他 部 分 ， 并 不 是 所 有 人 都 会 喜欢 这 种 风格 ， 但 
zloop 的 确 是 将 定时 器 和 套 接 字 的 行为 融合 在 了 一 起 。 在 以 后 的 例子 中 ， 我 们 会 用 
zmq_poll() 来 处 理 简 单 的 示例 ， 使 用 zloop 来 处 理 复 杂 的 。 


下 面 我 们 用 zloop 来 重 写 LRU 队 列 装置 


ZMQ 相国 


Iruqueue3.c 


7 
// ”LRU 队列 装置 ， 使 用 czmq 及 其 反应 器 模式 实现 
2 


Zinclude "czmq.h" 


4define NBR CLIENTS 10 
4define NBR WORKERS 3 
4define LRU READY "\001" // Woker 已 准备 就 绪 的 消息 


// ”使 用 REQ 实 现 基本 的 请 求 - 应 符 模 式 

// 

statie vobdoe 

client task (void *args) 

{ 
Zctx t *ctx = zctx new (); 
void *client - zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, "ipc://frontend.ipc"); 


// 发 送 请 求 并 接收 应 答 

while (1) { 
zstr send (client, "HELLO"); 
char *reply - zstr recv (client); 
if (!reply) 

break; 

printf ("Client: 9sNn", reply); 
free (reply); 
sleep (1); 

} 

zctx destroy (&ctx); 

ise tsm NY. 


j 


// worker 使 用 REQ 套 接 字 来 实现 路 由 

// 

static vodld * 

worker task (void *arg ptr) 

t 
zctx_t *ctx = zctx- new (); 
void *worker - zsocket new (ctx, ZMQ REQ); 
zsocket connect (worker, "ipc://backend.ipc"); 


// 告诉 代理 Worker 已 经 准备 就 绪 
zframe t *frame = zframe new (LRU READY, 1); 
zframe send (&frame, worker, 0); 


// 获取 消息 并 处 理 
while (1) { 
zmsg t *msg - zmsg recv (worker); 
if (!msg) 
break; // Hi 


T ho CT 


//zframe print (zmsg last (msg), 
zframe reset (zmsg last (msg), 


zmsg send (&msg, worker); 


zctx destroy (&ctx); 
return NULE: 


} 


// LRU 队列 处 理 器 结构 ， 将 要 传 给 反应 器 
typedef struct f 


void *frontend; HY 
void *backend; V 
zlist t *workers; Ud 


) lruqueue t; 


// 处理 frontend 端 的 消息 
int 


"Worker: 
LOKIT 235 


D 


监听 client 
Ds 


监听 worker 
可 用 的 Worker 列 表 


s handle frontend (zloop t *loop, void *socket, void *arg) 


lruqueue t *self = (lruqueue t *) arg; 
zmsg t *msg = zmsg recv (self-»frontend); 


if (msg) { 
zmsg wrap (msg, 
zmsg send (&msg, 


(zframe t *) zlist pop (self-»workers)); 
self-»backend); 


// ”如 果 没 有 可 用 的 worker， 则 停止 监听 frontend 
if (zlist_size (self->workers) == 0) 
zloop cancel (loop, self->frontend); 


} 
returnto; 
} 
// 处 理 packend 端 的 消息 
int 
i 


// 使 用 worker 的 地 址 进行 LRU 路 由 


s handle backend (zloop t *loop, void *socket, void *arg) 


lruqueue t *self = (lruqueue t *) arg; 
zmsg t *msg = zmsg recv (self-»backend); 


if (msg) { 
zframe t *address - 


zmsg unwrap (msg); 


zlist append (self-»workers, address); 


// ” 当 有 可 用 worker 时 增加 frontend 端 的 监听 
if (zlist size (self->workers) == 1) 


zloop reader (loop, self-»-frontend, s handle frontend, 


// 如果 是 worker 发 送 来 的 应 答 ， 则 转发 给 clLient 


zframe t *frame = 


if (memcmp (zframe data (frame), 


zmsg destroy (&msg); 
else 
zmsg send (&msg, 


zmsg first (msg); 


LRU READY, 1) == 0) 


self ->frontend); 


rae tuam 


} 
int main (void) 
{ 
zctx_t *ctx = zctx_new (); 
lruqueue t *self = (lruqueue t *) zmalloc (sizeof (lruqueue t). 
self-»-frontend = zsocket new (ctx, ZMQ ROUTER); 
self-»-backend = zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (self--frontend, "ipc://frontend.ipc"); 
zsocket bind (self-»-backend, "ipc://backend.ipc"); 
int client nbr; 
for (client nbr = 0; client nbr < NBR CLIENTS; client nbr--) 
zthread new (ctx, client task, NULL); 
int worker nbr; 
for (worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) 
zthread new (ctx, worker task, NULL); 
// 可 用 worker 的 列表 
self-»-workers = zlist new (); 
// 准备 并 启动 反应 器 
zloop t *reactor = zloop new (); 
zloop reader (reactor, self-»-backend, s handle backend, self); 
zloop start (reactor); 
zloop destroy (&reactor); 
// 结束 之 后 的 清理 工作 
while (zlist size (self->workers)) { 
zframe t *frame = (zframe t *) zlist pop (self-»workers); 
zframe destroy (&frame); 
} 
zlist destroy (&self->workers); 
zctx destroy (&ctx); 
free (self); 
retutm- o» 
} 





需要 代码 的 配合 。 若 zmq_poll() 返 回 了 -1， 或 者 recv 方 法 (zstr. recv, 
zframe recv, zmsg recv) 返回 了 NULL， 就 必须 退出 所 有 的 循环 。 另 外 ， 在 最 外 层 
循环 中 增加 !zctx_interrupted 的 判断 也 很 有 用 。 


要 正确 处 理 Ctrl-C 还 是 有 点 困难 的 ， 如 果 你 使 用 zctx 类 ， 那 它 会 自动 进行 处 理 ， 不 过 
层 


异步 CS 结构 


在 之 前 的 ROUTER-DEALER 模 型 中 ， 我 们 看 到 了 client 是 如 何 弄 步 地 和 多 个 worker 
。 我 们 可 以 将 这 个 结构 倒置 过 来 ， 实 现 多 个 client 异 步 地 和 单个 server 进 
通信 : 
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一 一 一 
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Figure 17 — Asynchronous Client Server 


client 4& € servert A iX TR K ; 

每 一 次 收 到 请 求 ，server 会 发 送 0 至 N 个 应 答 5 
client 可 以 同时 发 送 多 个 请 求 而 不 需要 等 待 应 答 ; 
server 可 以 同时 发 送 多 个 应 答 二 不 需要 新 的 请 求 。 


asyncsrd.c 


// 
// ”异步 C/S 模 型 (DEALER-ROUTER) 
// 


#include "czmq.h" 


ER 
// ”这 是 client 端 任务 ， 它 会 连接 至 server， 每 秒 发 送 一 次 请 求 ， 同 时 收集 和 打印 应 答 ; 
// ”我 们 会 运行 多 个 client 端 任务 ， 使 用 随机 的 标识 。 


Static vodd ^ 
client task (void *args) 
{ 
zctx_t *ctx = zctx new (); 
void *client = zsocket new (ctx, ZMQ DEALER); 


// 设置 随机 标识 ， 方 便 跟 踪 

char identity [10]; 

sprintf (identity, "9604X-9604X", randof (0x10000), randof (QOx10( 
zsockopt set identity (client, identity); 

zsocket connect (client, "tcp://localhost:5570"); 


zmq pollitem t items [] = ( ( client, ©, ZMQ POLLIN, © } Y; 
int request nbr = 90; 
while (1) ( 

// poll 中 获取 消息 ， 每 秒 一 次 

int centitick; 


for (centitick = 0; centitick < 100; centitick++) ( 
zmq poll (items, 1, 10 * ZMQ POLL MSEC); 
if (items [90].revents & ZMQ POLLIN) ( 
zmsg t *msg - zmsg recv (client); 
zframe print (zmsg last (msg), identity); 
zmsg destroy (&msg); 
} 


zstr sendf (client, "request #%d", ++request_nbr); 
} 
zctx destroy (&ctx); 
return NULL; 


j 


V E EE E cc mta EEEN ci CDM E E E cn decem Dune) 
// 这 是 server 端 任务 ， 它 使 用 多 线程 机 制 将 请 求 分 发 给 多 个 worker， 并 正确 返回 应 答 ; 
// ”一 个 worker 只 能 处 理 一 次 请 求 ， 但 client 可 以 同时 发 送 多 个 请 求 。 


static void server worker (void *args, zctx t *ctx, void *pipe); 


void *server task (void *args) 


( 


ZCtx t *cEx = zctx new (); 


// frontend 套 接 字 使 用 TCP 和 client 通 信 
void *frontend = zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (frontend, "tcp://*:5570"); 


// backend £i T 4$ JH inprocfeworkeriáís 
void *backend - zsocket new (ctx, ZMQ DEALER); 
zsocket bind (backend, "inproc://backend"); 


//  JÀ8)—^*workerZ f » Zt Ex 

int thread nbr; 

for (thread nbr = 0; thread nbr < 5; thread nbr++) 
zthread fork (ctx, server worker, NULL); 


// 使 用 队列 装置 连接 backend 和 frontend， 我 们 本 来 可 以 这 样 做 : 
WA zmq device (ZMQ QUEUE, frontend, backend); 
// 但 这 里 我 们 会 自己 完成 这 个 任务 ， 这 样 可 以 方便 调试 。 


// 在 frontend 和 backend 间 搬运 消息 
while (1) { 
zmq pollitem t items [] = ( 
{ frontend, 0, ZMQ POLLIN, 0 }, 
{ backend, ©, ZMQ POLLIN, ©} 
3 
zmq poll (items, 2, -1); 
if (items [90].revents & ZMQ POLLIN) ( 
zmsg t *msg - zmsg recv (frontend); 
//puts ("Request from client:"); 
//zmsg dump (msg); 
zmsg send (&msg, backend); 


} 
if (items [i].revents & ZMQ POLLIN) { 
zmsg t *msg - zmsg recv (backend); 
//puts ("Reply from worker:"); 
//zmsg dump (msg); 
zmsg send (&msg, frontend); 
} 
} 
zctx destroy (&ctx); 
return NULL; 
} 


// 接收 一 个 请 求 ， 随 机 返回 多 条 相同 的 文字 ， 并 在 应 答 之 间 做 随机 的 延迟 。 
static void 
server worker (void args zctx t *ctx, void *pipe) 
i 
void *worker - zsocket new (ctx, ZMQ DEALER); 
zsocket connect (worker, "inproc://backend"); 


while (1) { 
// ”DEALER 套 接 字 将 信封 和 消息 内 容 一 起 返回 给 我 们 
zmsg t *msg = zmsg recv (worker); 
zframe t *address zmsg pop (msg); 
zframe t *content zmsg pop (msg); 
assert (content); 
zmsg destroy (&msg); 


// 随机 返回 0 至 4 条 应 答 
int reply, replies = randof (5); 
for (reply = 09; reply < replies; reply++) { 
// 暂停 一 段 时间 
zclock sleep (randof (1000) + 1); 
zframe send (&address, worker, ZFRAME REUSE + ZFRAME M( 
zframe send (&content, worker, ZFRAME REUSE); 
} 
zframe destroy (&address); 
zframe destroy (&content); 


} 
} 
// ” 主 程 序 用 来 启动 乡 个 client 和 一 个 server 
77 
int main (void) 
1 


zctx t *ctx - zctx new (); 

zthread new (ctx, client task, NULL); 
zthread new (ctx, client task, NULL); 
zthread new (ctx, client task, NULL); 
zthread new (ctx, server task, NULL); 


// ”运行 5 秒 后 退出 


zclock sleep (5 * 1000); 
zctx destroy (&ctx); 
return 0; 








运行 上 面 的 代码 ， 可 以 看 到 三 个 客户 端 有 各 自 的 随机 标识 ， 每 次 请 求 会 获得 零 到 多 
条 回复 。 
a de 


e Cclient 每 秒 会 发 送 一 次 请 求 ， 并 获得 零 到 多 条 应 答 。 这 要 通过 zmq_poll() 来 实 
现 ， 但 我 们 不 能 只 每 秒 poll 一 次 ， 这 样 将 不 能 及 时 处 理应 答 。 程 序 中 我 们 每 秒 
取 100 次 ， 这 样 一 来 server 端 也 可 以 以 此 作为 一 种 心跳 (heartbeat) ， 用 来 检 
测 client 是 否 还 在 线 。 


e Server 使 用 了 一 个 worker 池 ， 每 一 个 worker 同 步 处 理 一 条 请 求 。 
内 置 的 队列 来 搬运 消息 ， 但 为 了 方便 调试 ， 在 程序 中 我 们 自己 实现 了 这 
程 。 你 可 以 将 注释 的 几 行 去 掉 ， 看 看 输出 结果 


这 段 代 码 的 整体 架构 如 下 图 所 示 : 
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Figure 18 — Detail of asynchronous server 


可 以 看 到 ，client 和 server 之 间 的 连接 我 们 使 用 的 是 DEALER-ROUTER ， 而 server 
和 worker 的 连接 则 用 了 DEALER-DEALER 。 如 果 worker 是 一 个 同步 的 线程 ， 我 们 可 
以 用 REP。 但 是 本 例 中 worker 需 要 能 够 发 送 多 个 应 答 ， 所 以 就 需要 使 用 DEALER 这 
样 的 异步 套 接 字 。 这 里 我 们 不 需要 对 应 答 进 行路 由 ， 因 为 所 有 的 worker 都 是 连接 到 
一 个 server 上 的 。 


让 我 们 看 看 路 由 用 的 信封 ，client 发 送 了 一 条 信息 ， server 获 取 的 信息 中 包含 了 
client 的 地 址 ， 这 样 一 来 我 们 有 两 种 可 行 的 server-worker 通 信 方 案 : 


e Worker 收 到 未 经 标识 的 信息 。 我 们 使 用 显 式 声明 的 标识 ， 配 合 ROUTER 套 接 字 
来 连接 worker 和 server。 这 种 设计 需要 Worker 提 前 告知 ROUTER 它 的 存在 ， 这 
种 LRU 算 法 正 是 我 们 之 前 所 讲述 的 。 


e Worker 收 到 含有 标识 的 信息 ， 并 返回 含有 标识 的 应 答 。 这 就 要 求 wWorker 能 够 处 
理 好 信封 。 


第 二 种 涉及 较为 简单 : 


client server frontend worker 
[ DEALER ]«----»[ ROUTER «----» DEALER «----» DEALER ] 
1 part 2 parts 2 parts 


当 我 们 需要 在 client 和 server 之 问 维持 一 个 对 话 时 ， 就 会 碰 到 一 个 经 典 的 问题 : 
client 是 不 国定 的 ， 如 果 给 每 个 client 都 保存 一 些 消息 ， 那 系统 资源 很 快 就 会 耗 尺 。 
即使 是 和 同一 个 client 保 持 连 接 ， 因 为 使 用 的 是 瞬时 的 套 接 字 (没有 显 式 声明 标 
识 ) ， 那 每 次 连接 也 相当 于 是 一 个 新 的 连接 。 


想 要 在 异步 的 请 求 中 保存 好 client 的 信息 ， 有 以 下 几 点 需要 注意 : 


e client 需 要 发 送 心跳 给 server。 本 例 中 client 每 秒 都 会 发 送 一 个 请 求 给 server， 这 
就 是 一 种 很 可 靠 的 心跳 机 制 。 

e 使 用 client 的 套 接 字 标 识 来 存储 信息 ， 这 对 瞬时 和 持久 的 套 接 字 都 有 效 ; 

e 检测 停止 心跳 的 client， 如 两 秒 内 没有 收 到 某 个 client 的 心跳 ， 就 将 保存 的 状态 
丢弃 。 


实战 : 跨 代 理 路 由 

让 我 们 把 目前 所 学 到 的 知识 综合 起 来 ， 应 用 到 实战 中 去 。 我 们 的 大 客户 今天 打 来 一 
个 紧急 电话 ， 说 是 要 构建 一 个 大 型 的 云 计 算 设 施 。 它 要 求 这 个 云 架 构 可 以 跨越 多 个 
数据 中 心 ， 每 个 数据 中 心包 含 一 组 client 和 worker， 且 能 共同 协作 。 

我 们 坚信 实践 高 于 理论 ， 所 以 就 提议 使 用 ZMQ 搭 建 这 样 一 个 系统 。 我 们 的 客户 同意 


了 ， 可 能 是 因为 他 的 确 也 想 降低 开发 的 成 本 ， 或 是 在 推 特 上 看 到 了 太 多 ZMQ 的 好 
处 o 


细节 详 述 


喝 完 几 杯 特 浓 咖啡 ， 我 们 准备 着 手 干 了 ， 但 脑 中 有 个 理智 的 声音 提醒 我 们 应 该 在 事 
前 将 问题 分 析 清 楚 ， 然 后 再 开始 思考 解决 方案 。 云 到 底 要 做 什么 ?我们 如 是 问 ， 容 
户 这 样 回答 : 
e Worker 在 不 同 的 硬件 上 运作 ， 但 可 以 处 理 所 有 类 型 的 任务 。 每 个 集群 都 有 成 百 
个 worker， 再 乘 以 集群 的 个 数 ， 因 此 数量 众多 。 
e client 向 worker 指 派 任务 ， 每 个 任务 都 是 独立 的 ， 每 个 client 都 希望 能 找到 对 应 
的 worker 来 处 理 任 务 ， 越 快 越 好 。client 是 不 国定 的 ， 来 去 频繁 。 
e 真正 的 难点 在 于 ， 这 个 架构 需要 能 够 自如 地 添加 和 删除 集群 ， 附 带 着 集群 中 的 
client 和 worker 。 
e 如 果 集 群 中 没有 可 用 的 worker， 它 便 会 将 任务 分 派 给 其 他 集群 中 可 以 用 的 
worker ° 
e Client 每 次 发 送 一 个 请 求 ， 并 等 待 应 答 。 如 果 X 秒 后 他 们 没有 获得 应 答 ， 他 们 会 
重新 发 送 请 求 。 这 一 点 我 们 不 需要 多 做 考虑 ，client 端 的 API 已 经 写 好 了 。 
e Worker 每 次 处 理 一 个 请 求 ， 他 们 的 行为 非常 简单 。 如 果 worker 崩 演 了 ， 会 有 另 
外 的 脚本 启动 他 们 。 


听 了 以 上 的 回答 ， 我 们 又 进一步 追问 : 
e 集群 之 间 会 有 一 个 更 上 层 的 网 络 来 连接 他 们 对 吗 ? 客户 说 是 的 。 


e 我 们 需要 处 理 多 大 的 和 春 吐 量 ? 客户 说 ， 每 个 集群 约 有 一 千 个 client， 单 个 client 
每 秒 会 发 送 10 次 请 求 。 请 求 包含 的 内 容 很 少 ， 应 答 也 很 少 ， 每 个 不 超过 1KB 。 


我 们 进行 了 简单 的 计算 ，2500 个 client x 10 次 / 秒 x 1000 字 节 x 双向 = 50MB/ 秒 ， 或 
400Mb/ 秒 ， 这 对 1Gb 网 络 来 说 不 成 问题 ， 可 以 使 用 TCP 协 议 。 


这 样 需求 就 很 清晰 了 ， 不 需要 额外 的 硬件 或 协议 来 完成 这 件 事 ， 只 要 提供 一 个 高 效 
的 路 由 算法 ， 设 计 得 绩 密 一 些 。 我 们 首先 从 一 个 集群 (数据 中 心 ) 开始 ， 然 后 思 
如 何 来 连接 他 们 。 


单个 集群 的 架构 


worker 和 client 是 同步 的 ， 我 们 使 用 LRU 算 法 来 给 worker 分 配 任务 。 每 个 worker 都 是 
等 价 的 ， 所 以 我 们 不 需要 考虑 服务 的 问题 。Wworker 是 匿名 的 ，client 不 会 和 某 个 特定 
的 worker 进 行 通信 ， 因 而 我 们 不 需要 保证 消息 的 送 达 以 及 失败 后 的 重 试 等 。 
鉴于 上 文 提 过 的 原因 ，client 和 worker 是 不 会 直接 通信 的 ， 这 样 一 来 就 无 法 动态 地 添 
加 和 删除 节点 了 了。 所以， 我们 的 基础 模型 会 使 用 一 个 请 求 -应 答 模 式 中 使 用 过 的 代理 
结构 。 
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Figure 19 — Cluster architecture 


乡 个 集群 的 架构 


下 面 我 们 将 集群 扩充 到 多 个 ， 每 个 集群 有 自己 的 一 组 client 和 worker， 并 使 用 代理 相 
连接 : 


Cluster 1 


Cluster 2 





Figure 20 — Multiple clusters 


问题 在 于 : 我 们 如 何 让 一 个 集群 的 client 和 另 一 个 集群 的 worker 进 行 通信 呢 ? 有 这 样 
几 种 解决 方案 ， 我 们 来 看 看 他 们 的 优 劣 : 


e client 直 接 和 多 个 代理 相连 接 。 优 点 在 于 我 们 可 以 不 对 代理 和 worker 做 改动 ， 但 
client 会 变 得 复杂 ， 并 需要 知悉 整个 架构 的 情况 。 如 果 我 们 想 要 添加 第 三 或 第 四 
个 集群 ， 所 有 的 client 都 会 需要 修改 。 我 们 相当 于 是 将 路 由 和 容错 功能 写 进 
client 了 ， 这 并 不 是 个 好 主意 。 


e Worker 直 接 和 多 个 代理 相连 接 。 可 是 REQ 类 型 的 worker 不 能 做 到 这 一 点 ， 它 只 
能 应 答 给 某 一 个 代理 。 如 果 改 用 REP 套 接 字 ， 这 样 就 不 能 使 用 LRU 算 法 的 队列 
代理 了 。 这 点 肯定 不 行 ， 在 我 们 的 结构 中 必须 用 LRU 算 法 来 管理 worker。 还 有 
个 方法 是 使 用 ROUTER 套 接 字 ， 让 我 们 暂且 称 之 为 方案 1。 


e 代理 之 间 可 以 互相 连接 ， 这 看 上 去 不 错 ， 因 为 不 需要 增加 过 多 的 额外 连接 。 虽 
然 我 们 不 能 随意 地 添加 代理 ， 但 这 个 问题 可 以 暂 不 考虑 。 这 种 情况 下 ， 集 群 中 
的 worker 和 client 不 必 理 会 整体 架构 ， 当 代理 有 剩余 的 工作 能 力 时 便 会 和 其 他 代 
理 通 信 。 这 是 方案 2。 

我 们 首先 看 看 方案 1，worker 同 时 和 多 个 代理 进行 通信 : 
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Figure21 — ideal — cross connected workers 


这 看 上 去 很 灵活 ， 但 却 没 有 提供 我 们 所 需要 的 特性 : client 只 有 当 集 群 中 的 worker 不 
可 用 时 才 会 去 请 求 异 地 的 worker。 此 外 ，worker 的 "已 就 绪 " 信 号 会 同时 发 送 给 两 个 

代理 ， 这 样 就 有 可 能 同时 获得 两 份 任 务 。 这 个 方案 的 失败 还 有 一 个 原因 : 我 们 又 将 
路 由 逻辑 放 在 了 边缘 地 带 。 

那 来 看 看 方案 2， 我 们 为 各 个 代理 建立 连接 ， 不 修改 worker 和 client : 
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Figure 22 一 ldeaz 一 brokers talking to each other 


这 种 设计 的 优势 在 于 ， 我 们 只 需要 在 一 个 地 方 解 决 问题 就 可 以 了 ， 其 他 地 方 不 需要 
修改 。 这 就 好 像 代 理 之 间 会 秘密 通信 : 伙计 ， 我 这 儿 有 一 些 剩余 的 劳动 力 ， 如 果 你 
那儿 忙 不 过 来 就 跟 我 说 ， 价 钱 好 商量 。 


事实 上 ， 我 们 只 不 过 是 需要 设计 一 种 更 为 复杂 的 路 由 算法 罢了 : 代理 成 为 了 其 他 代 
理 的 分 包 商 。 这 种 设计 还 有 其 他 一 些 好 处 : 


e 在 普通 情况 下 (如 只 存在 一 个 集群 )， 这 种 设计 的 处 理 方式 和 原来 没有 区 别 ， 
当 有 多 个 集群 时 再 进行 其 他 动作 。 


。 对 于 不 同 的 工作 我 们 可 以 使 用 不 同 的 消息 流 模式 ， 如 使 用 不 同 的 网 络 链接 。 


e 架构 的 扩充 看 起 来 也 比较 容易 ， 如 有 必要 我 们 还 可 以 添加 一 个 超级 代理 来 完成 
调度 工作 。 


现在 我 们 就 开始 编写 代码 。 我 们 会 将 完整 的 集群 写 入 一 个 进程 ， 这 样 便于 演示 ， 而 

且 稍 作 修改 就 能 投入 实际 使 用 。 这 也 是 ZMQ 的 优美 之 处 ， 你 可 以 使 用 最 小 的 开发 模 

块 来 进行 实验 ， 最 后 方便 地 迁移 到 实际 工程 中 。 线 程 变 成 进程 ， 消 息 模式 和 逮 辑 不 

需要 改变 。 我 们 每 个 "集群 "进程 都 包 仿 client 线程、worker 线 程 、 以 及 代理 线程 。 

我 们 对 基础 模型 应 该 已 经 很 熟悉 了 : 

e Client 线 程 使 用 REQ 套 接 字 ， 将 请 求 发 送 给 代理 线程 (ROUTER 套 接 字 ) ; 

e Worker 线 程 使 用 REQ 套 接 字 ， 处 理 并 应 答 从 代理 线程 (ROUTER 套 接 字 ) 收 到 
的 请 求 ; 

e. 代理 会 使 用 LRU 队 列 和 路 由 机 制 来 管理 请 求 。 


联邦 模式 和 同伴 模式 
连接 代理 的 方式 有 很 多 ， 我 们 需要 革 酌 一 番 。 我 们 需要 的 功能 是 告诉 其 他 代理 “我 这 
里 还 有 空 闪 的 worker”， 然 后 开始 接收 并 处 理 一 些 任 务 ; 我 们 还 需要 能 够 告诉 其 他 代 


理 “ 够 了 够 了 ， 我 这 边 的 工作 量 也 满 了 ”。 这 个 过 程 不 一 定 要 十 分 完美 ， 有 时 我 们 确 
实 会 接收 超过 承受 能 力 的 工作 量 ， 但 仍 能 逐步 地 完成 。 

最 简单 的 方式 称 为 联邦 ， 即 代理 充当 其 他 代理 的 client 和 worker。 我 们 可 以 将 代理 的 
前 端 套 接 字 连接 至 其 他 代理 的 后 端 套 接 字 ， 反 之 亦 然 。 提 示 一 下 ，ZMQ 中 是 可 以 将 
一 个 套 接 字 绑 定 到 一 个 端点 ， 同 时 又 连接 至 另 一 个 端点 的 。 


Cluster 1 Cluster 2 





Figure 23 — Cross connected brokers in federation model 


e e 当代 理 没有 client 时 ， 它 会 告诉 其 他 代理 自己 准备 好 

了 ， 并 接收 一 个 任务 进行 处 理 。 但 问题 在 于 这 种 机 制 太 简单 了 ， 联 邦 模式 下 的 代理 
一 次 只 能 处 理 一 个 请 未 如 果 client 和 worker 是 严格 同步 的 ， 那 么 代理 中 的 其 他 空闲 
worker 将 分 配 不 到 任务 。 我 们 需要 的 代理 应 该 具备 完全 异步 的 特性 ° 


但 是 ， 联 邦 模式 对 某 些 应 用 来 说 是 非常 好 的 ， 比 如 面向 服务 架构 (SOA) 。 所 以 ， 
先 不 要 和 急 着 否定 联邦 模式 ， 它 只 是 不 适用 于 LRU 和 工法 和 集群 负载 均衡 而 已 。 


我 们 还 有 一 种 方式 来 连接 代理 : 同伴 模式 。 代 理 之 间 知 道 彼 此 的 存在 ， 并 使 用 一 个 
特殊 的 信道 进行 通信 。 我 们 逐步 进行 分 析 ， 假设 有 NN 个 代理 需要 连接 ， ， 每 个 代理 则 
有 N-1 个 同伴 ， 所 有 代理 都 使 用 相同 格式 的 消息 进行 通信 。 关 于 消息 在 代理 之 间 的 
流通 有 两 点 需要 注意 : 


e 每 个 代理 需要 告知 所 有 同伴 自己 有 多 少 空闲 的 worker， 这 是 一 则 简单 的 消息 ， 
只 是 一 个 不 断 更 新 的 数字 ， 很 显然 我 们 会 使 用 PUB-SUB 套 接 字 。 这 样 一 来 ， 
每 个 代理 都 会 打开 一 个 PUB 套 接 字 ， 人 身 的 信息 ; 同时 又 会 打开 
一 个 SUB 套 接 字 ， 获 取 其 他 代理 的 信 ， 


e 每 个 代理 需要 以 某 种 方式 将 工作 任务 交 给 其 他 代理 ， 并 能 获取 应 答 ， 这 个 过 程 
需要 是 异步 的 。 我 们 会 使 用 ROUTER-ROUTER 套 接 字 来 实现 ， 没 有 其 他 选 
择 。 每 个 代理 会 使 用 两 个 这 样 的 ROUTER 套 接 字 ， 一 个 用 于 接收 任务 ， 另 一 个 
用 于 分 发 任务 。 如 果 不 使 用 两 个 套 接 字 ， oa 别 收 到 的 是 
请 求 还 是 应 答 ， 这 就 需要 在 消息 中 加 入 更 多 的 信 ， 


另外 还 需要 考虑 的 是 代理 和 本 地 client 和 worker 之 间 的 通信 


The Naming Ceremony 


代理 中 有 三 个 消息 LC 每 | 个 消息 ` 流 使 用 两 个 套 接 字 ， 因 此 一 共 需 要 使 用 六 个 套 接 
字 。 为 这 些 套 接 字 取 一 组 好 名 字 很 重要 ， 这 样 我 们 就 不 会 在 来 回 切 换 的 时 候 找 不 着 
北 。 套 接 字 是 有 一 定 任 务 的 ， 他 们 的 所 完成 的 工作 可 以 是 命名 的 一 部 分 。 这 样 ， 当 
我 们 日 后 再 重新 阅读 这 些 代 码 时 ， 就 不 会 显得 太 过 陌生 了 。 


以 下 是 我 们 使 用 的 三 个 消息 流 : 
e 本 地 (local) 的 请 求 -应 答 消 息 流 ， 实 现代 理 和 client、 代 理 和 worker 之 间 的 通 


e 云端 (cloud) 的 请 求 - 应 答 消 息 流 ， 实现 代理 和 其 同伴 的 通信 
e 状态 (state) 流 ， 由 代理 和 其 同伴 互相 传递 。 


能 够 找到 一 些 有 意义 的 、 且 长 度 相 同 的 名 字 ， 会 让 我 们 的 代码 对 得 比较 整齐 。 可 能 
他 们 并 没有 太 多 关联 ， 但 久 了 自然 会 习惯 。 


每 个 消 ELA RA ET: > 我 们 之 前 一 直 称 为 “前 端 (frontend) o 
e 。 这 两 个 名 字 我 们 已 经 使 用 很 多 次 了 : 前 端 会 负责 责 接 受信 息 或 任务 ; 
后 端 会 发 送信 息 或 任务 给 同伴 。 从 概念 上 说 ， 消 息 流 都 是 从 前 BÉ 的 ， 应 答 则 是 从 
后 往 前 前 8 


因此 ， 我 们 决定 使 用 以 下 的 命名 方式 : 


vo 


e localfe / localbe 


e cloudfe / cloudbe 
e statefe / statebe 


通信 协议 方面 ， 我 们 全 部 使 用 ipc。 使 用 这 种 协议 的 好 处 是 ， 它 能 像 tcp 协 议 那 样 作 
为 一 种 脱 机 通信 协议 来 工作 ， 而 又 不 需要 使 用 IP 地 址 或 DNS 服务 。 对 于 ipc 协 议 的 端 
点 ， 我 们 会 命名 为 XXX-localfe/be、Xxxx-cloud、XxXxx-state， 其 中 xxXxx 代 表 集 群 的 名 

称 。 


也 许 你 会 觉得 这 种 命名 方式 太 长 了 ， 还 不 如 简单 的 叫 s1、s2、s3...... 事 实 上 ， 你 的 
大 脑 并 不 是 机 器 ， 阅 读 代码 的 时 候 不 能 立刻 反应 出 变量 的 含义 。 而 用 上 面 这 种 “三 个 
消息 流 ， 两 个 方向 "的 方式 记忆 ， 要 比 纯 粹 记忆 “六 个 不 同 的 套 接 字 ” 来 的 方便 。 


以 下 是 代理 程序 的 套 接 字 分 布 图 : 
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Figure24 — Broker socket arrangement 


请 注意 ， 我 们 会 将 cloudbe 连 接 至 其 他 代理 的 cloudfe， 也 会 将 statebe 连 接 至 其 他 代 
3? 8j statefe ° 


状态 流 原 型 
由 于 每 个 消息 流 都 有 其 巧妙 之 处 ， 所 以 我 们 不 会 直接 把 所 有 的 代码 都 写 出 来 ， 而 是 


分 段 编写 和 测试 。 当 每 个 消息 流 都 能 正常 工作 了 ， 我 们 再 将 其 拼装 成 一 个 完整 的 应 
用 程序 。 我 们 首先 从 状态 流 开 始 : 


— A l5 lc 
ZMQ 48 8g 








Figure25 — The state flow 
代码 如 下 


peering1: Prototype state flow in C 


YH 

// ”代理 同伴 模拟 (第 一 部 分 ) 
// ”状态 流 原 型 

ZY 

#include "czmq.h" 


amt main (intrarge m echar argv T1) 


{ 


// ”第 一 个 参数 是 代理 的 名 称 
// 其 他 参数 是 各 个 同伴 的 名 称 
77 


if (argc < 2) { 


printf ("syntax: peeringi me {you}. ..\n"); 


exit (EXIT_FAILURE); 


char *self = argv [1]; 
printf ("I: 正在 准备 代理 程序 %s...\n", self); 
srandom ((unsigned) time (NULL)); 


// 准备 上 下 文 和 套 接 字 

Zctx t *ctx = zctx new (); 

void *statebe - zsocket new (ctx, ZMQ PUB); 

zsocket bind (statebe, "ipc://9:s-state.ipc", self); 


// 连接 statefe 套 接 字 至 所 有 同伴 

void *statefe = zsocket new (ctx, ZMQ SUB); 

int argn; 

for (argn = 2; argn < argc; argn++) ( 
char *peer - argv [argn]; 
printf ("I: 正在 连接 至 同伴 代理 '%s' 的 状态 流 后 端 Nn"，peer)， 
zsocket connect (statefe, "ipc://%s-state.ipc", peer); 


} 

// 发 送 并 接受 状态 消息 

// zmq_poll( ) 苑 数 使 用 的 超时 时 间 即 心跳 时 间 
zy. 

while (1) { 


// ”初始 化 p011 对 象 列 表 
zmq_pollitem t items [] = ( 
{ statefe, 0, ZMQ POLLIN, 0 } 
}; 
// ” 轮 询 套 接 字 活 动 ， 超 时 时 间 为 1 秒 
int rc = zmq poll (items, 1, 1000 * ZMQ POLL MSEC); 
Apre =S =l) 
break; // P 


// 处 理 接收 到 的 状态 消息 
if (items [0].revents & ZMQ POLLIN) ( 
char *peer name - zstr recv (statefe); 
char *available - zstr recv (statefe); 
printf ("同伴 代理 %s 有 96s ^"worker E E|Nn", peer name, av 
free (peer name); 
free (available); 


} 
else ( 

// RŽI T E A worker žk 

zstr_sendm (statebe, self); 

zstr_sendf (statebe, "%d", randof (10)); 
} 


} 
zctx destroy (&ctx); 
return EXIT. SUCCESS; 


.了 
几 点 说 明 : 


。 每 个 代理 都 需要 有 各 自 的 标识 ， 用 以 生成 相应 的 ipc 端 点 名 称 。 捧 实 环境 中 ， 代 
理 需 要 使 用 TCP 协 议 连接 ， 这 就 需要 一 个 更 为 完备 的 配置 机 制 ， 我 们 会 在 以 后 
的 章节 中 恋 到 。 





e Bo m ANTRO ， 它 会 处 理 接收 到 消息 ， 并 发 送 自身 的 状 
nr an e OU ERST 
xD S 消息 都 去 发 送 自身 状态 ， 那 消息 就 会 过 量 了 。 


e 发 送 的 状态 消息 包含 两 帧 ， 第 一 帧 是 代理 自身 的 地 址 ， 第 二 帧 是 空闲 的 worker 
数 。 我 们 必须 要 告知 同伴 代理 自 身 的 地 址 ， 这 样 才 能 接收 到 请 求 ， 唯 一 的 方法 
就 是 在 消息 中 显示 注 明 。 

e S DANDI 置 标识 ， 否 则 就 会 在 连接 到 同伴 代理 时 获得 过 期 的 
状态 信 ， 


e 我 们 没有 在 PUB 套 接 字 上 设置 阅 值 (HWM) ， 因 为 订阅 者 是 瞬时 的 。 我 们 也 
可 以 将 阅 值 设置 为 1， 但 其 实 是 没有 必要 的 。 


Lm ， 用 它 模拟 三 个 集群 ，DC1、DC2、DC3。 我 们 在 不 同 的 窗口 
中 运行 以 下 命 


peering1 DC1 DC2 DC3 # Start DC1 and connect to DC2 and DC3 
peering1 DC2 DC1 DC3 £ Start DC2 and connect to DC1 and DC3 
peering1 DC3 DC1 DC2 # Start DC3 and connect to DC1 and DC2 


每 个 集群 都 会 报告 同伴 代理 的 状态 ， 之 后 每 隔 一 秒 都 会 打印 出 自己 的 状态 。 

在 现实 编程 中 ， 我 们 不 会 通过 定时 的 方式 来 发 送 自身 状态 ， 而 是 在 状态 发 生疏 变 时 
就 发 送 。 这 看 起 来 会 很 占用 带宽 ， 但 其 实 状态 消息 的 内 容 很 少 ， 而 且 集群 间 的 连接 
是 非常 快速 的 。 

如 果 我 们 想 要 以 较为 精确 的 周期 来 发 送 状态 信息 ， 可 以 新 建 一 个 线程 ， 将 statebe 委 


接 字 打开 ， 然 后 由 主线 程 将 不 规则 的 状态 信息 发 送 给 子 线程 ， 再 由 子 线程 定时 发 布 
这 些 消 息 。 不 过 这 种 机 制 就 需要 额 外 的 编程 了 。 


本 地 流 和 云端 流 原 型 


下 面 让 我 们 建立 本 地 流 和 云端 流 的 原型 Q 这 上 段 代码 会 从 client 获 取 请 求 并 随机 地 分 
派 给 集群 内 的 worker 或 其 他 集群 。 
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Figure 26 — The flow of tasks 


在 编写 代码 之 前 ， 让 我 们 先 描绘 一 下 核心 的 路 由 逻辑 ， 整 理 出 一 份 简 单 而 健壮 的 设 
ie 

我 们 需要 两 个 队列 ， 一 个 队列 用 于 存放 从 本 地 集群 client 收 到 的 请 求 ， 另 一 个 存放 其 
他 集群 发 送 来 的 请 求 。 一 种 方法 是 从 本 地 和 云端 的 前 端 套 接 字 中 获取 消息 ， 分 别 存 
入 两 个 队列 。 但 是 这 么 做 似乎 是 没有 必要 的 ， 因 为 ZMQ 套 接 字 本 身 就 是 队列 。 所 

以 ， 我 们 直接 使 用 ZMQ 套 接 字 提供 的 缓存 来 作为 队列 使 用 。 


这 项 技术 我 们 在 LRU 队 列 装置 中 使 用 过 ， 且 工作 得 很 好 。 做 法 是 ， 当 代理 下 有 空闲 
的 worker 或 能 接收 请 求 的 其 他 集群 时 ， 才 从 套 接 字 中 获取 请 求 。 我 们 可 以 不 断 地 从 
后 端 获取 应 答 ， 然 后 路 由 回去 。 如 果 后 端 没有 任何 响应 ， 那 也 就 没有 必要 去 接收 前 
端的 请 求 了 。 


所 以 ， 我 们 的 主 循环 会 做 以 下 几 件 事 : 
e 轮 询 后 端 套 接 字 ， 会 从 Worker 处 获得 “已 就 绪 " 的 消息 或 是 一 个 应 答 。 如 果 是 应 
答 消息 ， 则 将 其 路 由 回 集 群 client， 或 是 其 他 集群 。 
e Worker 应 答 后 即 可 标记 为 可 用 ， 放 入 队列 并 计数 ; 
e. 如 果 有 可 用 的 worker， 就 获取 一 个 请 求 ， 该 请 求 可 能 来 自 集群 内 的 client， 也 可 


能 是 其 他 集群 。 随 后 将 请 求 转发 给 集群 内 的 worker， 或 是 随机 转发 给 其 他 集 
群 。 











2r 只 是 随机 地 将 请 求 发 送 给 其 他 集群 ， 而 不 是 在 代理 中 模拟 出 一 个 worker ， 
行 集群 间 的 任务 分 发 。 这 看 起 来 挺 思 春 的 ， 不 过 目前 尚 可 使 用 。 


我 们 使 用 代理 的 标识 来 进行 代理 之 前 前 的 消息 路 由 。 每 个 代理 都 有 自己 的 名 字 ， 是 在 
命令 行 中 指 定 的 。5 Pob n a 
么 我 们 就 可 以 知道 应 答 是 要 返回 给 client， 还 是 返回 给 另 一 个 集群 。 


下 面 是 代码 ， 有 趣 的 部 分 已 在 程序 中 标注 : 


peering2: Prototype local and cloud flow in C 


// 代理 同伴 模拟 〔 第 二 部 分 ) 
// ”请 求 -应 答 消 息 流 原型 


// 

// ”示例 程序 使 用 了 一 个 进程 ， 这 样 可 以 让 程序 变 得 简单 ， 

// ”每 个 线程 都 有 自己 的 上 下 文 对 象 ， 所 以 可 以 认为 他 们 是 多 个 进程 。 
2 


4include "czmq.h" 


4define NBR CLIENTS 10 
4define NBR WORKERS 3 
Zdefine LRU READY  NODTS // 消息 :worker 已 就 绪 


// ”代理 名 称 ; 现实 中 ， 这 个 名 称 应 该 由 茶 种 配置 完成 
static char *self; 


// 请求- 应答 客户 端 使 用 REQ 套 接 字 
rd 

static void * 

client task (void *args) 


{ 
zctx_t *ctx = zctx-new (); 
void *client - zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, "ipc://9$s-localfe.ipc", self); 
while (1) ( 
// 发 送 请 求 ， 接 收 应 答 
zstr send (client, "HELLO"); 
char *reply - zstr recv (client); 
if (!reply) 
break; //. TW 
printf ("Client: %s\n", reply); 
free (reply); 
sleep (1); 
j 
zctx destroy (&ctx); 
iren eem UT EIE S 
} 
// worker 使 用 REQ 套 接 字 ， 并 进行 LRU 路 由 
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static void * 
worker task (void *args) 


{ 
zctx t *ctx = zctx new (); 
void *worker - zsocket new (ctx, ZMQ REQ); 
zsocket connect (worker, "ipc://9$s-localbe.ipc", self); 
// ”告知 代理 worker 已 就 绪 
zframe t *frame = zframe new (LRU READY, 1); 
zframe send (&frame, worker, 0); 
// 处 理 消息 
while (1) ( 
zmsg t *msg - zmsg recv (worker); 
if (!msg) 
break; // P 
zframe print (zmsg last (msg), "Worker: "); 
zframe reset (zmsg last (msg), "OK", 2); 
zmsg send (&msg, worker); 
zctx destroy (&ctx); 
return NULL; 
} 
Tne main iane ande ehan anov iM) 
{ 
// ”第 一 个 参数 是 代理 的 名 称 
// 其 他 参数 是 同伴 代理 的 名 称 


YA 

if (argc < 2) { 
printf ("syntax: peering2 me {you}. ..\n"); 
exit (EXIT_FAILURE); 

} 

self = argv [1]; 

printf ("I: 3EJE/E & 4XGE4£P hs... Nn", self); 

srandom ((unsigned) time (NULL)); 


// 准备 上 下 文 和 套 接 字 
ZCX t "cEbx = zctx-new ()- 
char endpoint [256]; 


// 将 cloudfe 绑 定 至 端点 

void *cloudfe = zsocket new (ctx, ZMQ ROUTER); 
zsockopt set identity (cloudfe, self); 

zsocket bind (cloudfe, "ipc://9$s-cloud.ipc", self); 


// 将 cloudbe 和 连接 至 同伴 代理 的 端点 

void *cloudbe = zsocket new (ctx, ZMQ ROUTER); 
zsockopt set identity (cloudfe, self); 

int argn; 

for (argn = 2; argn < argc; argn++) { 


char *peer - argv [argn]; 
printf ("I: 正在 连接 至 同伴 代理 '%s' fSjcloudfes| *Nn", peer); 
zsocket connect (cloudbe, "ipc://%s-cloud.ipc", peer); 


} 

// ”准备 本 地 前 端 和 后 端 

void *localfe = zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (localfe, "ipc://9ss-localfe.ipc", self); 
void *localbe - zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (localbe, "ipc://9ss-localbe.ipc", self); 


// ”让 用 户 告诉 我 们 何 时 开始 
printf ("请 确认 所 有 代理 已 经 启动 ， 按 任意 键 继 续 ; ") ; 
getchar (); 


// ”启动 本 地 worker 

int worker nbr; 

for (worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) 
zthread new (ctx, worker task, NULL); 


// ”启动 本 地 client 

int client nbr; 

for (client nbr = 0; client nbr < NBR CLIENTS; client nbr--) 
zthread new (ctx, client task, NULL); 


// ”有 趣 的 部 分 


"A PERS 应 答 消 息 流 
// - 若 本 地 有 可 用 worker， 则 轮 询 获取 本 地 或 云端 的 请 求 ; 
// - 将 请 求 路 由 给 本 地 worker 或 其 他 集群 


// 可 用 worker 队 列 
int capacity = 0; 
zlist t *workers - zlist new (); 


while (1) { 
zmq pollitem t backends [] = { 
{ localbe, ©, ZMQ POLLIN, © Jj, 
{ cloudbe, ©, ZMQ POLLIN, © } 
// 如 果 没 有 可 用 worker， 则 继续 等 待 
int rc = zmq poll (backends, 2, 
capacity? 1000 * ZMQ POLL MSEC: -1); 
if (rc -- -1) 
break; // Bf 


// 处 理 本 地 worker 的 应 答 
zmsg t *msg = NULL; 
if (backends [90].revents & ZMQ POLLIN) ( 
msg - zmsg recv (localbe); 
if (!msg) 
break; // Bf 
zframe t *address - zmsg unwrap (msg); 
zlist append (workers, address); 


capacity--; 


// ”如果 是 “已 就 绪 " 的 信号 ， 则 不 再 进行 路 由 

zframe t *frame = zmsg first (msg); 

if (memcmp (zframe data (frame), LRU READY, 1) -- 0) 
zmsg destroy (&msg); 


P 处 理 来 自 同伴 代理 的 应 答 
else 
if (backends [1].revents & ZMQ POLLIN) ( 
msg - zmsg recv (cloudbe); 
if (!msg) 
break; // 中 断 
YN, 我 们 不 需要 使 用 同伴 代理 的 地 址 
zframe t *address = zmsg unwrap (msg); 
zframe destroy (&address); 


// ”如 果 应 答 消息 中 的 地 址 是 同伴 代理 的 ， 则 发 送 给 它 

for (argn = 2; msg && argn < argc; argn++) { 
char *data = (char *) zframe data (zmsg first (msg)); 
size t size - zframe size (zmsg first (msg)); 


if (size -- strlen (argv [argn]) 
&&  memcmp (data, argv [argn], size) == 0) 
zmsg send (&msg, cloudfe); 
} 
// 将 应 答 路 由 给 本 地 ClLient 
if (msg) 


zmsg send (&msg, localfe); 


// ”开始 处 理 客户 端 请 求 
// 
while (capacity) { 
zmq pollitem t frontends [] = { 
{ localfe, 0, ZMQ POLLIN, © Jj, 
{ cloudfe, 0, ZMQ POLLIN, 0 } 
rc - zmq poll (frontends, 2, 0); 
assert (rc >= 0); 
int reroutable - 0; 
// 优先 处 理 同伴 代理 的 请 求 ， 避 免 资 源 耗 尽 
if (frontends [1].revents & ZMQ POLLIN) ( 
msg - zmsg recv (cloudfe); 
reroutable - 0; 
} 
else 
if (frontends [6].revents & ZMQ POLLIN) ( 
msg = zmsg recv (localfe); 
reroutable = 1; 
J 
else 
break; // 没有 请 求 


// 将 20% 的 请 求 发 送 给 其 他 集群 


"T 
ug Cr routeabLe e Web > 2 && randof (5) == 0) { 
// 随地 地 路 由 给 同伴 1 
Int random Tr - radoi (argc - 2) * 2; 
zmsg pushmem (msg, argv [random peer], strlen (arg 
zmsg send (&msg, cloudbe); 


} 
else ( 
zframe t *frame = (zframe t *) zlist pop (workers), 
zmsg wrap (msg, frame); 
zmsg send (&msg, localbe); 
capacity--; 
} 


} 

} l " 

// ”程序 结束 后 的 清理 工作 

while (zlist size (workers)) { 
zframe t *frame = (zframe t *) zlist pop (workers); 
zframe destroy (&frame); 

} 

zlist destroy (&workers); 

zctx destroy (&ctx); 

return EXIT. SUCCESS; 





在 两 个 窗口 中 运行 以 上 代码 : 


peering2 me you 
peering2 you me 


几 点 说 明 : 


e Zmsg 类 库 让 程序 变 得 简单 多 了 ， 这 类 程序 显然 应 该 成 为 我 们 ZMQ 程 序 员 必 备 
的 工具 ; 由 于 我 们 没有 在 程序 中 实现 获取 同伴 代理 状态 的 功能 ， 所 以 先 暂且 认 
为 他 们 都 是 有 空间 Worker 的 。 现 实 中 ， 我 们 不 会 将 请 求 发 送 个 一 个 不 存在 的 同 
伴 代 理 。 


e 你 可 以 让 这 段 程序 长 时 间 地 运行 下 去 ， 看 看 会 不 会 出 现 路 由 错误 的 消息 ， 因 为 
一 旦 错误 ， dien 阻塞 。 你 可 以 试 着 将 一 个 代理 关闭 ， 就 能 看 到 代理 无 法 将 
请 求 路 由 给 云端 中 的 其 他 代理 ，client 逐 个 阻塞 ， 程 序 也 停止 打印 跟踪 信息 。 


组 装 
让 我 们 将 所 有 这 些 放 到 一 段 代码 里 。 和 之 前 一 样 ， 我 们 会 在 一 个 进程 中 完成 所 有 工 


作 。 我 们 会 将 上 文中 的 两 个 示例 程序 结合 起 来 ， 编 写 出 一 个 可 以 模拟 任意 多 个 集群 
的 程序 。 


代码 共有 270 行 ， 非 常 适 合用 来 模拟 一 组 完整 的 集群 程序 ， 包 括 client、worker、 代 
理 、 以 及 云端 任务 分 发 机 制 。 


peering3: Full cluster simulation in C 


同伴 代理 模拟 (第 三 部 分 ) 
状态 和 任务 消息 流 原型 


pe 使 用 了 一 个 进程 ， 这 样 可 以 让 程序 变 得 简单 ， 
每 个 我 程 都 有 自己 的 上 下 文 对 象 ， 所 以 可 以 认为 他 们 是 多 个 进程 。 


Zinclude "czmq.h" 


Zdefine NBR CLIENTS 10 
Zdefine NBR WORKERS 5 


Zdefine LRU READY "UNDO // 消息 :worker 已 就 绪 
// REBAR: 现实 中 ， 这 个 名 称 应 该 由 某 种 配置 完成 

static char *self; 

// ”请 求 -应答 客户 端 使 用 REQ 套 接 字 

// 为 模拟 压力 测试 ， 客 户 端 会 一 次 性 发 送 大 量 请 求 

// 


static Vo 
client task (void *args) 


( 


Zctx t *ctx - zctx new (); 

void *client - zsocket new (ctx, ZMQ REQ); 

zsocket connect (client, "ipc://9?$s-localfe.ipc", self); 
void *monitor - zsocket new (ctx, ZMQ PUSH); 

zsocket connect (monitor, "ipc://96$s-monitor.ipc", self); 


while (1) ( 
sleep (randof (5)); 
int burst - randof (15); 
while (burst--) { 
char task_id [5]; 
sprintf (task id, "%04X", randof (0x10000)); 


// 使 用 随机 的 十 六 进 制 ID 来 标注 任务 
zstr send (client, task id); 


// 最 多 等 待 10 秒 
zmq pollitem t pollset [1] = ( ( client, ©, ZMQ POLLIN, 
int rc = zmq poll (pollset, 1, 10 * 1000 * ZMQ POLL MSIE 
if (ro == =l) 

break; // WW 


if (pollset [60].revents & ZMQ POLLIN) ( 
char *reply - zstr recv (client); 
if (!reply) 


j 


"n 
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break; // 中断 
7 Workers 答 中 应 包含 任务 ID 
puts (reply); 
assert (streq (reply, task id)); 
free (reply); 


} 
else [f 
zstr sendf in 
"E: 客户 端 退出 ， 丢 失 的 任务 为 : "s", task id); 
return NULL; 
} 


} 
} 
zctx destroy (&ctx); 
return NULL; 


worker 使 用 REQ 套 接 字 ， 并 进行 LRU 路 由 


static void + 
worker_task (void *args) 


( 


IME 


zctx_t *ctx = zctx new (); 
void *worker = zsocket new (ctx, ZMQ REQ); 
zsocket connect (worker, "ipc://9$s-localbe.ipc", self); 


// ”告知 代理 worker 已 就 绪 
zframe t *frame = zframe new (LRU READY, 1); 
zframe send (&frame, worker, 0); 


while (1) { 
// Worker 会 随机 延迟 几 秒 
zmsg_t *msg = zmsg_recv (worker); 
sleep (randof (2)); 
zmsg_send (&msg, worker); 
} 
zctx destroy (&ctx); 
return NULL; 


main (int argc, char *argv []) 


// 第 一 个 参数 是 代理 的 名 称 
// ”其 他 参数 是 同伴 代理 的 名 称 
// 


if (argc < 2) { 
printf ("syntax: peerings me (youj...Mn"); 
exit (EXIT_FAILURE); 
} 
self = argv [1]; 
printf ("I: 正在 准备 代理 程序 %s...\n", self); 
srandom ((unsigned) time (NULL)); 


77 


准备 上 下 文 和 套 接 字 


Zctx t *ctx = zctx new (); 
char endpoint [256]; 


A 


void 


将 cloudfe 绑 定 至 端点 
*cloudfe = zsocket new (ctx, ZMQ ROUTER); 


zsockopt set identity (cloudfe, self); 
zsocket bind (cloudfe, "ipc://95s-cloud.ipc", self); 


1 


将 statebe 绑 定 至 端点 


void *statebe = zsocket new (ctx, ZMQ PUB); 
zsocket bind (statebe, "ipc://9$s-state.ipc", self); 


7 


将 cloudbe 连 接 至 同伴 代理 的 端点 


void *cloudbe = zsocket new (ctx, ZMQ ROUTER); 
zsockopt set identity (cloudbe, self); 


int 
for 


j 
"7 


void 


for 


} 
7 


void 


argn; 
(argn = 2; argn < argc; argn++) { 

char *peer - argv [argn]; 

printf ("I: 正在 连接 至 同伴 代理 '%s' fSjcloudfe| $n", peer); 
zsocket connect (cloudbe, "ipc://%s-cloud.ipc", peer); 


将 statefe 连 接 至 同伴 代理 的 端点 
*statefe = zsocket new (ctx, ZMQ SUB); 
(argn = 2; argn < argc; argn++) ( 
char *peer - argv [argn]; 
printf ("I: 正在 连接 至 同伴 代理 '%s' fjstatebes*| *Nn", peer); 
zsocket connect (statefe, "ipc://96s-state.ipc", peer); 


准备 本 地 前 端 和 后 端 
*localfe = zsocket new (ctx, ZMQ ROUTER); 


zsocket bind (localfe, "ipc://9:$s-localfe.ipc", self); 


void 


*localbe - zsocket new (ctx, ZMQ ROUTER); 


zsocket bind (localbe, "ipc://9ss-localbe.ipc", self); 


"rà 


准备 监控 套 接 字 


void *monitor = zsocket new (ctx, ZMQ PULL); 
zsocket bind (monitor, "ipc://9$s-monitor.ipc", self); 


// 
IME 
for 


启动 本 地 worker 

worker nbr; 

(worker nbr = 0; worker nbr < NBR WORKERS; worker nbr--) 
zthread new (ctx, worker task, NULL); 


启动 本 地 client 

client_nbr; 

(client nbr = 0; client nbr < NBR CLIENTS; client_nbr++) 
zthread new (ctx, client task, NULL); 


有 趣 的 部 分 


Up 发 布 -订阅 消息 息 流 

// - 轮 询 同伴 代理 的 状态 信息 ; 

71) a Em 状态 改变 时 ， 对 外 广播 消息 。 
// ”请 求 -应答 消息 流 


// - 若 本 地 有 可 用 worker » mM# S 
// - 将 请 求 路 由 给 本 地 worker 或 其 他 集群 


// 可 用 worker 队 列 

int local capacity = 90; 

int cloud capacity - 0; 

zlist t *workers - zlist new (); 


while (1) { 
zmq pollitem t primary [] = 1 
{ localbe, 0, ZMQ POLLIN, 0 
{ cloudbe, 0, ZMQ POLLIN, 0 
{ statefe, 0, ZMQ POLLIN, 0 
{ monitor, ©, ZMQ POLLIN, 0 


, 
, 
, 


w w w w 


}; 
// ”如 果 没 有 可 用 的 worker， 则 一 直 等 待 
int rc = zmq poll (primary, 4, 
local capacity? 1000 * ZMQ POLL MSEC: -1); 
if (rc == -1) 
break; //. wHRj 


// 跟踪 自身 状态 信息 是 否 改变 
int previous = local capacity; 


// ”处 理 本 地 worker 的 应 答 
zmsg t *msg = NULL; 


if (primary [60].revents & ZMQ POLLIN) { 
msg = zmsg recv (localbe); 
if (!msg) 
break; // SEN 
zframe t *address - zmsg unwrap (msg); 
zlist append (workers, address); 
local capacity++; 


// ”如 果 是 “已 就 绪 ” 的 信号 ， 则 不 再 进行 路 由 

zframe t *frame = zmsg first (msg); 

if (memcmp (zframe data (frame), LRU READY, 1) -- 0) 
zmsg destroy (&msg); 


} 

// 处 理 来 自 同伴 代理 的 应 答 

else 

if (primary [i].revents & ZMQ POLLIN) ( 
msg = zmsg recv (cloudbe); 
if (!msg) 

break; // Interrupted 

// 我 们 不 需要 使 用 同伴 代理 的 地 址 
zframe t *address = zmsg unwrap (msg); 
zframe destroy (&address); 


// ”如 果 应 答 消息 中 的 地 址 是 同伴 代理 的 ， 则 发 送 给 它 
for (argn = 2; msg && argn < us pores 1 


char *data - (char *) zframe data (zmsg first (msg)); 
size t size - zframe size (zmsg first (msg)); 


if (size -- strlen (argv [argn]) 
&&  memcmp (data, argv [argn], size) == 0) 
zmsg send (&msg, cloudfe); 
} 
// ”将 应 答 路 由 给 本 地 client 
if (msg) 


zmsg send (&msg, localfe); 


// 处 理 同 伴 代理 的 状态 更 新 

if (primary [2].revents & ZMQ POLLIN) { 
char *status - zstr recv (statefe); 
cloud capacity - atoi (status); 
free (status); 


// ”处 理 监控 消息 

if (primary [3].revents & ZMQ POLLIN) { 
char *status - zstr recv (monitor); 
printf ("9s:sNn", status); 
free (status); 






} 

// ”开始 处 理 客户 端 请 求 

// ”- 如 果 本 地 有 空间 worker， 则 总 本 地 client 和 云端 接收 请 求 ; 
// - 如 果 我 们 只 有 空闲 的 同伴 代理 ， 则 只 轮 询 本 地 ClLient 的 请 求 ; 
// - 将 请 求 路 由 给 本 地 WOrker， 或 者 同伴 代理 。 

/7 


while (local capacity + cloud capacity) ( 

zmq pollitem t secondary [] = ( 

{ localfe, 0, ZMQ POLLIN, O0 }, 

{ cloudfe, 0, ZMQ POLLIN, 0 } 
3 
if (local capacity) 

rc = zmq poll (secondary, 2, 9); 
else 

rc = zmq poll (secondary, 1, 9); 
assert (rc »- 0); 


if (secondary [60].revents & ZMQ POLLIN) 
msg - zmsg recv (localfe); 

else 

if (secondary [i].revents & ZMQ POLLIN) 
msg - zmsg recv (cloudfe); 

else 
break; // 没有 任务 


if (local capacity) { 


zframe t *frame = (zframe t *) zlist pop (workers), 


zmsg wrap (msg, frame); 


zmsg send (&msg, localbe); 
local capacity--; 


j 
else ( 


/ / 


今后 | 人 代 yy 


int non _peer = randof (argc - 2) + 2; 
zmsg pushmem (msg, argv [random peer], strlen (arg 
zmsg send (&msg, cloudbe); 


Y hH 2 
IT uu 


} 


Bb b es capacity I= previous) { 
727 年 自身 代理 的 地 址 附加 到 消息 4 
zstr_ 'sendm SECUN) self); 
MI jm 453 85 7 
zstr sendf (atatete "%d", local capacity); 
} 
// 程 太 结 来 后 的 清理 工作 
while (zlist. size SIT Kr) 1 
zframe t *frame = (zframe t *) zlist pop (workers); 
zframe destroy (&frame); 


zlist destroy (&workers); 
zctx destroy (&ctx); 
return EXIT. SUCCESS; 





这 段 代 码 并 不 长 ， 但 花费 了 大 约 一 天 的 时 间 去 调 通 。 以 下 是 一 些 说 明 : 


。 client 线 程 会 检测 并 报告 失败 的 请 求 ， 它 们 会 轮 询 代理 套 接 字 ， 查 看 是 否 有 应 
答 ， 超 时 时 间 为 10 秒 。 


e Cclient 线 程 不 会 自己 打印 信息 ， 而 是 将 消息 M 线程 ， 由 它 打 印 消 
息 。 这 是 我 们 第 一 次 使 用 ZMQ 进 行 监控 和 记录 上 日志， 我 们 以 后 会 见得 更 多 。 


e clinet 会 模拟 多 种 负载 情况 ， 让 集群 在 不 同 的 压力 下 工作 ， 因 此 请 求 可 能 会 在 本 
地 处 理 ， 也 有 可 能 会 发 送 至 云端 。 集 群 中 的 client 和 worker 数 量 、 其 他 集群 的 数 
量 ， 以 及 延迟 时 间 ， 会 左右 这 个 结果 。 你 可 以 设置 不 同 的 参数 来 测试 它们 。 


e. 主 循环 中 有 两 组 轮 询 集 合 ， 事 实 上 我 们 可 以 使 用 三 个 : 信息 流 、 后 端 、 前 端 。 
因为 在 前 面 的 例子 中 ， 如 果 后 端 没 有 空闲 的 worker， 就 没有 必要 轮 询 前 端 请 求 
了 Oo 


以 下 是 几 个 在 编写 过 程 中 遇 到 的 问题 : 
e 如 果 请 求 或 应 答 ee E M 回忆 以 下 ，ROUTER- 
ROUTER 套 接 字 会 在 消息 如 法 路 由 的 情况 下 直接 丢弃 。 这 里 的 一 个 策略 就 是 改 


变 client 线 程 ， 检 测 并 报告 这 种 错误 。 此 外 ， 我 还 在 每 次 recv() 之 后 以 及 send() 
之 前 使 用 zmsg_dump() 来 打印 套 接 字 内 容 ， 用 来 更 快 地 定位 消息 。 


e 主 循环 会 错误 地 从 多 个 已 就 绪 的 套 接 字 中 获取 消息 ， 造 成 第 一 条 消息 的 丢失 。 
解决 方法 是 只 从 第 一 个 已 就 绪 的 套 接 字 中 获取 消息 。 


e Zmsg 类 库 没 有 很 好 地 将 UUID 编 码 为 C 语 言 字符 串 ， 导 致 包 含 字 节 0 的 UUID 会 
前 溃 。 解 决 方法 是 将 UUID 转 换 成 可 打印 的 十 六 进 制 字符 串 。 


这 段 模拟 程序 没有 检测 同伴 代理 是 否 存 在 。 如 果 你 开启 了 茶 个 代理 ， 它 已 向 其 他 代 
理发 送 过 状态 信息 ， 然 后 关闭 了 ， 那 其 他 代理 仍 会 向 它 发 送 请 求 。 这 样 一 来 ， 其 他 
代理 的 client 就 会 报告 很 多 错误 。 解 决 时 有 两 点 : 一 、 为 状态 信息 设置 有 效 期 ， 当 同 
伴 代理 消失 一 段 时 间 后 就 不 再 发 送 请 求 ; 二 、 提 高 请 求 -应 答 的 可 靠 性 ， 这 在 下 一 章 
中 会 讲 到 。 


可 靠 的 请 求 -应 答 模 式 


第 三 章 中 我 们 使 用 实例 介绍 了 高 级 请 求 -应 答 模式 ， 本 章 我 们 会 讲述 请 求 -应 答 模式 
的 可 靠 性 问题 ， 并 使 用 ZMQ 提 供 的 套 接 字 类 型 组 建 起 可 靠 的 请 求 -应 答 消 息 系统 。 


本 章 将 介绍 的 内 容 有 : 


客户 端 请 求 -应 答 

最 近 最 少 使 用 队列 
心跳 机 制 

面向 服务 的 队列 

基于 磁盘 〈 脱 机 ) 队列 
主 从 备份 服务 

无 中 间 件 的 请 求 - 应 答 


Tr AGERE EM ? 


要 给 可 靠 性 下 定义 ， 我 们 可 以 先 界定 它 的 相反 面 一 一 故障 。 如 果 我 们 可 以 处 理 茶 些 
类 型 的 故障 ， 那 么 我 们 的 模型 对 于 这 些 故 障 就 是 可 靠 的 。 下 面 我 们 就 来 列举 分 布 式 
ZMQ 应 用 程序 中 可 能 发 生 的 问题 ， 从 可 能 性 高 的 故障 开始 : 


e 应 用 程序 代码 是 最 大 的 故障 来 源 。 程 序 会 崩溃 或 中 止 ， 停 止 对 数据 来 源 的 响 
应 ， 或 是 响应 得 太 慢 ， 耗 尽 内 存 等 。 

e 系统 代码 ， 如 使 用 ZMQ 编 写 的 中 间 件 ， 也 会 意外 中 止 。 系 统 代码 应 该 要 比 应 用 
程序 代码 更 为 可 算 ， 但 毕竟 也 有 可 能 崩溃 。 特 别 是 当 系 统 代码 与 速度 过 慢 的 客 
户 端 交互 时 ， 很 容易 耗 尽 内存 。 

e 消息 队列 溢出 ， 典 型 的 情况 是 系统 代码 中 没有 对 变 客 户 端 做 积极 的 处 理 ， 任 由 
消息 队列 溢出 。 

e 网 络 临时 中 断 ， 造 成 消息 丢失 。 这 类 错误 ZMQ 应 用 程序 是 无 法 及 时 发 现 的 ， 因 
为 ZMQ 会 自动 进行 重 连 。 

e 硬件 系统 甬 溃 ， 导 致 所 有 进程 中 止 。 

e 网 络 会 出 现 特殊 情形 的 中 断 ， 如 交换 机 的 某 个 端口 发 生 故 障 ， 导 致 部 分 网 络 无 
法 访问 。 

e 数据 中 心 可 能 章 受 雷击 、 地 震 、 火 灾 、 电 压 过 载 、 冷 却 系统 失效 等 。 

想 要 让 软件 系统 规避 上 述 所 有 的 风险 ， 需 要 大 量 的 人 力 物力 ， 故 不 在 本 指南 的 讨论 
范围 之 内 。 

由 于 前 五 个 故障 类 型 涵盖 了 99.9% 的 情形 (这 一 数据 源 自我 近期 进行 的 一 项 研 
Z) ， 所 以 我 们 会 深入 探讨 。 如 果 你 的 公司 大 到 足以 考虑 最 后 两 种 情形 ， 那 请 及 时 
联系 我 ， 因 为 我 正 愁 没 钱 将 我 家 后 院 的 大 坑 建 成 游泳 池 。 





可 靠 性 设计 


简单 地 来 说 ， 可 靠 性 就 是 当 程序 发 生 故障 时 也 能 顺利 地 运行 下 去 ， 这 要 比 搭建 一 个 
消息 系统 来 得 困难 得 多 。 我 们 会 根据 ZMQ 提 供 的 每 一 种 核心 消息 模式 ， 来 看 看 如 何 
保障 代码 的 持续 运行 。 


e 请 求 -应 答 模式 : 当 服务 端 在 处 理 请 求 是 中 断 ， 客 户 端 能 够 得 知 这 一 信息 ， 并 停 
止 接收 消息 ， 转 而 选择 等 待 重 试 、 请 求 另 一 服务 端 等 操作 。 这 里 我 们 暂 不 讨论 
客户 端 发 生 问题 的 情形 。 


e 发 布 -订阅 模式 : 如 果 客 户 端 收 到 一 些 消息 后 意外 中 止 ， 服 务 端 是 不 知道 这 一 情 
况 的 。 发 布 -订阅 模式 中 的 订阅 者 不 会 返回 任何 消息 给 发 布 者 。 人 但是， 订阅 者 可 
以 通过 其 他 方式 联系 服务 端 ， 如 请 求 -应 答 模式 ， 要 求 服务 端 重 发 消息 。 这 里 我 
们 暂 不 讨论 服务 端 发 生 问 题 的 情形 。 此 外 ， 订 阅 者 可 以 通过 某 些 方式 检查 自身 
是 否 运 行 得 过 慢 ， 并 采取 相应 措施 (向 操作 者 发 出 敬告、 中止 等 ) 。 


e 管道 模式 : 如 果 worker 意 外 终止 ， 任 务 分 发 器 将 无 从 得 知 。 管 道 模式 和 发 布 - 订 
阅 模 式 类 似 ， 只 朝 一 个 方向 发 送 消息 。 但 是 ， 下 游 的 结果 收集 器 可 以 检测 哪 项 
任务 没有 完成 ， 并 告诉 任务 分 发 器 重新 分 配 该 任务 。 如 果 任务 分 发 器 或 结果 收 
集 器 意外 中 止 了 ， 那 客户 端 发 出 的 请 求 只 能 另 作 处 理 。 所 以 说 ， 系 统 代码 芙 的 
要 减少 出 错 的 几率 ， 因 为 这 很 难处 理 。 


本 章 主 要 讲解 请 求 -应 答 模 式 中 的 可 靠 性 设计 ， 其 他 模式 将 在 后 续 章 节 中 讲解 。 
最 基本 的 请 求 应 答 模式 是 REQ 客 户 端 发 送 一 个 同步 的 请 求 至 REP 服 务 端 ， 这 种 模式 
的 可 靠 性 很 低 。 如 果 服务 端 在 处 理 请 求 时 中 止 ， 那 客户 端 会 永远 处 于 等 待 状态 。 
相 比 TCP 协 议 ，ZMQ 提 供 了 自动 重 连 机 制 、 消 息 分 发 的 负载 均衡 等 。 但 是 ， 在 丨 实 
环境 中 这 也 是 不 够 的 。 唯 一 可 以 完全 信任 基本 请 求 -应 答 模 式 的 应 用 场景 是 同一 进程 
的 两 个 线程 之 间 进 行 通信 ， 没 有 网 络 问题 或 服务 器 失效 的 情况 。 
但 是 ， 只 要 稍 加 修饰 ， 这 种 基本 的 请 求 -应 答 模 式 就 能 很 好 地 在 现实 环境 中 工作 了 。 
我 喜欢 将 其 称 为 “海盗 "模式 。 
粗略 地 讲 ， 窜 户 端 连接 服务 端 有 三 种 方式 ， 每 种 方式 都 需要 不 同 的 可 靠 性 设计 : 
e 多 个 客户 端 直接 和 单个 服务 端 进行 通信 使 用 场景 : 只 有 一 个 单 点 服务 器 ， 所 
有 客户 端 都 需要 和 它 通信 。 需 处 理 的 故障 : 服务 器 崩溃 和 重启 ; 网 络 连接 中 
斯 o 
e 多 个 客户 端 和 单个 队列 装置 通信 ， 该 装置 将 请 求 分 发 给 多 个 服务 端 。 使 用 场 
景 : 任务 分 发 。 需 处 理 的 故障 : worker ARER > AMAR’ AR: 队列 装置 
演 和 重启 ; 网 络 中 断 。 


个 客户 端 直 接 和 多 个 服务 端 通信 ， 无 中 间 件 。 使 用 场景 : 类 似 域 名 解析 的 分 
\ 服 务 。 需 处 理 的 故障 : 服务 端 崩 演 和 重启 ， 死 循环 ， 过 载 ; 网 络 连接 中 
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以 上 每 种 设计 都 必须 有 所 取舍 ， 很 多 时 候 会 混合 使 用 。 下 面 我 们 详细 说 明 o 


客户 端的 可 靠 性 设计 《懒惰 海盗 模式 ) 


Rar 和 寺 在 客户 端 进行 简单 的 设置 ， 来 实现 可 靠 的 请 求 -应 答 模 式 。 我 暂且 称 之 
为 “懒惰 的 海盗 ”(Lazy Pirate) 模式 。 


在 接收 应 答 时 ， 我 们 不 进行 同步 等 待 ， 而 是 做 以 下 操作 : 


e 对 REQ 套 接 字 进 行 轮 询 ， 当 消息 抵达 时 才 进 行 接收 ; 
e 请 求 超时 后 重 发 消息 ， 循 环 多 次 ; 
e 若 仍 无 消息 ， 则 结束 当前 事务 。 











Client Client Client 





Figure 1 — Lazy Pirate pattern 


使 用 REQ 套 接 字 时 必须 严格 遵守 发 送 -接收 过 程 ， 因 为 它 内 部 采用 了 一 个 有 限 状态 
机 来 限定 状态 ， 这 一 特性 会 让 我 们 应 用 “海盗 "模式 时 遇 上 一 些 麻烦 。 最 简单 的 做 法 
是 将 REQ 套 接 字 关闭 重启 ， 从 而 打破 这 一 限定 。 


Ipclient: Lazy Pirate client in C 


// Lazy Pirate client 
// 使 用 zmq_pol11 轮 询 来 实现 安全 的 请 求 -应 答 
// ”运行 时 可 随机 关闭 或 重启 lpserver 程 序 


#include "czmq.h" 


#define REQUEST TIMEOUT 2500 // 毫秒 ，(> 1000!) 
4define REQUEST RETRIES 3 // 尝试 次 数 
#define SERVER ENDPOINT "tcp:7/Llocalhost:5555' 


int main (void) 
{ 
Zctx t *ctx = zctx new (); 
printf ("I: 3EJEGEJEJURAR S ...Nn"); 
void *client - zsocket new (ctx, ZMQ REQ); 
assert (client); 
zsocket connect (client, SERVER ENDPOINT); 


int sequence - 0; 
int retries left - REQUEST RETRIES; 


while (retries left && !zctx interrupted) ( 
// 发 送 一 个 请 求 ， 并 开始 接收 消息 
char request [10]; 
sprintf (request, "9d", ++sequence); 
zstr send (client, request); 


int expect reply - 1; 
while (expect reply) { 
// ”对 套 接 字 进 行 轮 询 ， 并 设置 超时 时 间 


zmq pollitem t items [] = ( { client, 0, ZMQ POLLIN, 0 
int rc = zmq poll (items, 1, REQUEST TIMEOUT * ZMQ POLI 


is oed 
break; // 中 断 


// 如果 接收 到 回复 则 进行 处 理 
if (items [0].revents & ZMQ POLLIN) { 
// ” 收 到 服务 器 应 答 ， 必 须 和 请 求 时 的 序号 一 致 
char *reply = zstr_recv (client); 
if (!reply) 
break; // Interrupted 
aet (atoi (reply) zz sequence) { 


printf ("I: 服务 器 返回 正常 (%s)\n", reply); 


retries_left = Po 
expect_reply = 


} 
else 
printf ("E: 服务 器 返回 异常 : %s\n", 
reply); 
free (reply); 
} 
else 


if (--retries left == 0) { 
printf ("E: 服务 器 不 可 用 ， 取 消 操 作 \n"); 
break; 

} 

else ( 
printf ("W: 服务 器 没有 响应 ， 正 在 重 试 .. .Nn'") ; 
// ”关闭 昌 套 接 字 ， 并 建立 新 套 接 字 
zsocket destroy (ctx, client); 
prine (Ur: 04$ $38. xn5)s 
client - zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, SERVER ENDPOINT); 
// ”使 用 新 套 接 字 再 次 发 送 请 求 
zstr send (client, request); 


} 
} 
zctx destroy (&ctx); 
ret um 9 














Ipserver: Lazy Pirate server in C 


// 
// Lazy Pirate server 
// ”将 REQ 套 接 字 连接 至 E //* 15555 


// 和 hwserver 程 序 类 似 ， 除 了 以 下 两 点 : 
// 直接 输 出 请 3E P ER 

//  - 随机 地 降 慢 运行 速度 ， 或 中 止 程序 
J f 


Zinclude "zhelpers.h" 


int main (void) 


EUR XE 


// 耗 时 的 处 理 过 程 


{ 
srandom ((unsigned) time (NULL)); 
void *context - zmq init (1); 
void *server - zmq socket (context, ZMQ REP); 
zmq bind (server, "tcp://*:5555"); 
int cycles - 0; 
while (1) { 
char *request - s recv (server); 
cycles++; 
// ”循环 几 次 后 开始 模拟 各 种 故障 
if (cycles > 3 && randof (3) == 0) { 
printf ("I: RWF ANN"); 
break; 
} 
else 
if (cycles > 3 && randof (3) == 0) { 
printf ("I: JEJACPUX £i Nn"); 
sleep (2); 
printf ("I: 正常 请 求 (%s)\n", request); 
sleep (1); 
s send (server, request); 
free (request); 
Jj 
zmq close (server); 
zmq term (context); 
rae tuam 
} 


运行 这 1 ， 可 以 打开 两 个 控制 台 
客户 端的 反应 。 端的 典型 输出 如 下 


' 服务 端 会 随机 发 生 故 障 


|! 你 可 以 看 看 


normal request (1) 
normal request (2) 
normal request (3) 
simulating CPU overload 
normal request (4) 
simulating a crash 


HHHHHH 


connecting to server... 

server replied OK (1) 

server replied OK (2) 

server replied OK (3) 

W: no response from server, retrying... 
I: connecting to server... 

W: no response from server, retrying... 
I: connecting to server... 

E: server seems to be offline, abandoning 


客户 端 为 每 次 请 求 都 加 上 了 序 序列 号 ， 并 检查 收 到 的 应 答 
没有 请 求 或 应 答 丢 失 ， 同 一 个 应 答 收 到 多 次 或 乱 序 。 多 
的 能 够 解决 问题 。 现 实 环境 中 你 不 需要 使 用 到 序列 号 ， 
可 行 的 。 


客户 端 使 用 REQ 套 接 字 进 行 请 求 ， 并 在 发 生 问题 时 打开 一 个 新 的 套 接 字 来 ， 绕 过 
REQ 强 制 的 发 送 /接收 过 程 。 可 能 你 会 想 用 DEALER 套 接 字 > ,但 这 并 不 是 一 个 好 主 
意 。 首 先 ，DEALER 并 不 会 像 REQ 那 样 处 理 信封 〈 如 果 你 不 知道 信封 是 什么 ， 那 更 
不 能 用 DEALER 了 ) 。 其 次 ， 你 可 能 会 获得 你 并 不 想得到 的 结果 。 


一 方案 的 优 劣 是 : 


优点 : 简单 明了 ， 容 易 实 施 ; 
优点 : 可 以 方便 地 应 用 到 现 有 的 客户 端 和 服务 端 程序 中 ; 
优点 : ZMQ 有 自动 重 连 机 制 ; 
缺点 : 单 点 服务 发 生 故 障 时 不 能 定位 到 新 的 可 用 服务 。 


基本 的 可 靠 队 列 (简单 海盗 模式 ) 


在 第 二 种 模式 中 ， Bl cm 置 来 扩展 上 述 的 “ 懒 情 的 海盗 "模式 ， 使 客户 
端 能 够 透明 地 和 多 个 服务 端 通信 。 这 里 的 服务 àb ST VL. 3L worker 。 我 们 可 以 从 最 
基础 的 模型 开始 ， 分 阶段 实施 这 个 方案 。 


在 所 有 的 海 资 模式 中 ，worker 是 无 状态 的 ， 或 者 说 存在 着 一 个 我 们 所 不 知道 的 公共 
状态 ， 如 共 译 数据 库 。 队 列 装置 的 存在 意味 着 Worker 可 以 在 client 总 不 知情 的 情况 下 
随意 进出 。 一 个 worker 死 亡 后 ， 会 有 另 一 个 worker 接 替 它 的 工作 。 这 种 拓扑 结果 非 
常 简洁 ， 但 唯一 的 缺点 是 队列 装置 本 身 会 难以 维护 ， 可 能 造成 单 点 故障 。 


X 
运 


否 和 序列 号 一 致 ， 以 保证 
» 
ARR 


JUX X f] FAATA 
是 为 了 证 明 这 一 方式 是 


在 第 三 章 中 ， 队 列 装 置 的 基本 算 法 是 最 近 最 少 使 用 算法 。 那 么 ， 如 果 Worker 死 亡 或 
B. ， 我 们 需要 做 些 什 么 ?答案 是 很 少 很 少 。 我 们 已 经 在 client 中 加 入 了 重 试 的 机 

， 所 以 ， 使 用 基本 的 CRU 以 列 就 可 以 运作 得 很 好 了 。 这 种 做 法 也 符合 ZMQ 的 逻 
a 所 以 我 们 可 以 通过 在 点 对 点 交互 中 插入 一 个 简单 的 队列 装 置 来 扩展 它 
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Figure2 — Simple Pirate Pattern 


我 们 可 以 直接 使 用 “懒惰 的 海盗 "模式 中 的 client， 以 下 是 队列 装置 的 代码 : 


spqueue: Simple Pirate queue in C 


/ 

// ”简单 海盗 队列 

V 

// 这 个 装置 和 LRU 队 列 完 全 一 致 ， 不 存在 任何 可 靠 性 机 制 ， 依 靠 client 的 重 试 来 保证 装 


#include "czmq.h" 
#define LRU READY NOT // 消息 :worker 准 备 就 绪 


int main (void) 
{ 
// ”准备 上 下 文 和 套 接 字 
zctx_t *ctx = zctx new (); 
void *frontend - zsocket new (ctx, ZMQ ROUTER); 
void *backend - zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (frontend, "tcp://*:5555"); // Client 端 点 
zsocket bind (backend,  "tcp://*:5556"); // ”Worker 端 点 


// 存放 可 用 worker 的 队列 
zlist t *workers = zlist new (); 


while (1) ( 
zmq pollitem t items [] = ( 
( backend, ©, ZMQ POLLIN, © }, 
{ frontend, ©, ZMQ POLLIN, 0 } 
}; 
// ” 当 有 可 用 的 Woker 时 ， 轮 询 前 端 端点 
int rc = zmq poll (items, zlist size (workers)? 2: 1, -1); 
if (rc == -1) 
break; // Hf 


// ”处 理 后 端 端 点 的 Worker 消 息 
if (items [0].revents & ZMQ POLLIN) { 
// 使 用 worker 的 地 址 进行 LRU 排 队 
zmsg t *msg = zmsg recv (backend); 
if (!msg) 
break; // TW 
zframe t *address - zmsg unwrap (msg); 
zlist append (workers, address); 


// ”如 果 消 息 不 是 READY， 则 转发 给 client 

zframe_t *frame = zmsg_first (msg); 

if (memcmp (zframe data (frame), LRU READY, 1) == 0) 
zmsg destroy (&msg); 

else 
zmsg send (&msg, frontend); 


if (items [i].revents & ZMQ POLLIN) { 
// ”获取 client 请 求 ， 转 发 给 第 一 个 可 用 的 worker 
zmsg_t *msg = zmsg_recv (frontend); 
if (msg) { 
zmsg wrap (msg, (zframe t *) zlist pop (workers)); 
zmsg send (&msg, backend); 


} 

} 

// ”程序 运行 结束 ， 进 行 清理 

while (zlist size (workers)) { 
zframe t *frame = (zframe t *) zlist pop (workers); 
zframe destroy (&frame); 


j 


zlist destroy (&workers); 
zctx destroy (&ctx); 
return 0; 


Ei o- ëO 


以 下 是 Worker 的 代码 ， 用 到 了 “懒惰 的 海盗 "服务 ， 并 将 其 调整 为 LRU 模 式 (使 用 
REQ 套 接 字 传递 “已 就 绪 " 信 号 ) 





spworker: Simple Pirate worker in C 


77 
// 简单 海盗 模式 Worker 
"A 


// ”使 用 REQ 套 接 字 连接 tcp://*:5556， 使 用 LRU 算 法 实现 worker 


#include "czmq.h" 
#define LRU READY "\001" // 消息 :worker 已 就 绪 


int main (void) 
{ 
Zctx t *ctx = zctx new (); 
void *worker - zsocket new (ctx, ZMQ REQ); 


// 使 用 随机 符号 来 指定 套 接 字 标 识 ， 方 便 追 踪 

srandom ((unsigned) time (NULL)); 

char identity [109]; 

sprintf (identity, "9604X-9604X", randof (0x10000), randof (0x10( 
zmq setsockopt (worker, ZMQ IDENTITY, identity, strlen (identi! 
zsocket connect (worker, "tcp://localhost:5556"); 


// 告诉 代理 Worker 已 就 绪 

printf ("I: (%s) worker 准 备 就 绪 \n"，identity ) ; 
zframe t *frame = zframe new (LRU READY, 1); 
zframe send (&frame, worker, 0); 


int cycles = 90; 


while (1) { 
zmsg t *msg - zmsg recv (worker); 
if (!msg) 
break; // "Hi 


// 经 过 几 轮 循环 后 ， 模 拟 各 种 问题 
cycles--; 
if (cycles » 3 && randof (5) -- 0) ( 
printf ("I: (95) Žž% m Nn", identity); 
zmsg destroy (&msg); 
break; 
} 
else 
if (cycles > 3 && randof (5) == 0) { 
printf ("I: (%s) 3EJACPUX £iNn", identity); 


sleep (3); 
if (zctx interrupted) 
break; 
} 
printf ("I: (Ws) 正常 应 答 \n"，identity); 
sleep (1); // ”进行 某 些 处 理 


zmsg_send (&msg, worker); 


} 
zctx destroy (&ctx); 


rae tula 


j 
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IS 


运行 上 述 事 例 ， 局 动 多 个 worker， 一 个 client， 以 及 一 个 队列 装置 ， 顺序 AŠ o p) 
以 看 到 worker 最 终 都 会 崩溃 或 死亡 ， client 则 多 次 重 试 并 最 终 放 弃 。 装 置 从 来 不 会 
止 ， 你 可 以 任意 重启 Worker 和 client， 这 个 模型 可 以 和 任意 个 Worker、client 交 互 。 


健壮 的 可 靠 队 列 (偏执 海 资 模式) 


“简单 海盗 队列 "模式 工作 得 非常 好 ， 主 要 是 因为 它 只 是 两 个 现 有 模式 的 结合 体 。 不 
过 ， 它 也 有 一 些 缺 点 : 

e 该 模式 无 法 处 理 队 列 的 崩溃 或 重启 。client 会 进行 重 试 ， 但 worker 不 会 重启 。 虽 
然 ZMQ 会 自动 重 连 worker 的 套 接 字 ， 但 对 于 新 启动 的 队列 装置 来 说 ， 由 于 
worker 并 没有 发 送 “ 已 就 绪 " 的 ; 消息 ， 所 以 它 相 当 于 是 不 存在 的 。 A 了 解决 这 一 
问题 ， 我 们 需要 从 队列 发 送 心跳 给 worker， 这 样 worker 就 能 知道 队列 是 否 已 经 
死亡 。 

e 队列 没有 检测 worker 是 否 已 经 死亡 ， 所 以 当 worker 在 处 于 空闲 状态 时 死亡 ， 队 
列 装 置 只 有 在 发 送 了 某 个 请 求 之 后 才 会 将 该 Worker 从 队列 中 移 除 。 这 时 ，client 
什么 都 不 能 做 ， 只 能 等 待 。 ORO QM 1 问题 ， 但 是 依然 是 不 够 好 的 。 所 
以 ， 我 们 需要 从 worker 发 送 心 跳 给 队列 装置 ， 从 而 让 队列 得 知 worker 什 么 时 候 
消 To 

我 们 使 用 一 个 名 为 “偏执 的 海盗 模式 "来 解决 上 述 两 个 问题 。 

之 前 我 们 使 用 REQ 套 接 字 作为 worker 的 套 接 字 类 型 ， 但 在 偏执 海盗 模式 中 我 们 会 改 
用 DEALER 套 接 字 ， 从 而 使 我 们 能 够 任意 地 发 送 和 接受 消息 ， 而 不 是 像 REQ 套 接 字 
那样 必须 完成 发 送 -接受 循环 。 而 DEALER 的 缺点 是 我 们 必须 自己 管理 消息 信封 。 如 
果 你 不 知道 信封 是 什么 ， 那 请 阅读 第 三 章 。 
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Figure3 — Paranoid Pirate Pattern 
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我 们 仍 会 使 用 懒惰 海盗 模式 的 client， 以 下 是 偏执 海盗 的 队列 装置 代码 : 


ppqueue: Paranoid Pirate queue in C 


VA 

// ”偏执 海盗 队列 

YM 

#include "czmq.h" 


#define HEARTBEAT_LIVENESS 3 


#define HEARTBEAT INTERVAL 1000 


// ”偏执 海盗 协议 的 消息 代码 
#define PPP_READY Na 
#define PPP_HEARTBEAT 82 


// 心跳 健康 度 ，3-5 是 合理 的 
// 单位 : 毫秒 


// worker Eit 
// worker výk 


// 使 用 以 下 结构 表示 worker 队 列 中 的 一 个 有 效 的 worker 


typedef struct { 
zframe_t *address; 
char *identity; 
int64_t expiry; 

} worker_t; 





"d 
ded 
// 


worker &4 asat 
可 打印 的 套 接 字 标 识 
过 期 时 间 


C1 


N 


// 创建 新 的 worker 
static worker t * 
s worker new (zframe t *address) 


{ 
worker t *self = (worker t *) zmalloc (sizeof (worker t)); 
self-»address = address; 
self-»-identity = zframe strdup (address); 
self-»-expiry = zclock time () + HEARTBEAT INTERVAL * HEARTBEAT. 
return self; 

j 


// 销毁 worker 结 构 ， 包 括 标 识 
static void 
s worker destroy (worker t **self p) 
{ 
assert (self p); 
if (*self p) { 
worker t *self - *self p; 
zframe destroy (&self-»address); 
free (self-»identity); 
free (self); 
*self p - NULL; 


j 


// worker 已 就 绪 ， 将 其 移 至 列表 末尾 
static void 
s worker ready (worker t *self, zlist t *workers) 


{ 
worker t *worker = (worker t *) zlist first (workers); 
while (worker) ( 
if (streq (self-»identity, worker-»identity)) (1 
zlist remove (workers, worker); 
s worker destroy (&worker); 
break; 
} 
worker = (worker t *) zlist next (workers); 
} 
zlist append (workers, self); 
} 


// 返回 下 一 个 可 用 的 worker 地 址 

static zframe t “ 

S workers next (zlist t *workers) 

1 
worker t *worker = zlist pop (workers); 
assert (worker); 
zframe t *frame worker -»address; 
worker-»address NULL; 
s worker destroy (&worker); 
return frame; 


// 寻找 并 销毁 已 过 期 的 worker。 
// ”由 于 列表 中 最 昌 的 worker 排 在 最 前 ， 所 以 当 找 到 第 一 个 未 过 期 的 Worker 时 就 停止 。 
static void 
s workers purge (zlist t *workers) 
t 

worker t *worker - (worker t *) zlist first (workers); 

while (worker) { 

if (zclock time () < worker-»expiry) 
break; // worker 未 过 期 ， 停 止 扫描 


zlist remove (workers, worker); 
s worker destroy (&worker); 
worker = (worker t *) zlist first (workers); 


int main (void) 
{ 
zctx t *ctx = zctx new (); 
void *frontend - zsocket new (ctx, ZMQ ROUTER); 
void *backend = zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (frontend, "tcp://*:5555"); // Client 端 点 
zsocket bind (backend,  "tcp://*:5556"); // ”Worker 端 点 
// List of available workers 
zlist t *workers = zlist new (); 


// 规律 地 发 送 心跳 
uint64 t heartbeat at = zclock time () + HEARTBEAT INTERVAL; 


while (1) { 
zmq pollitem t items [] = ( 
{ backend, ©, ZMQ POLLIN, © }, 
{ frontend, ©, ZMQ POLLIN, 9 } 


, 
// ” 当 存 在 可 用 worker 时 轮 询 前 端 端点 
int rc = zmq poll (items, zlist size (workers)? 2: 1, 
HEARTBEAT INTERVAL * ZMQ POLL MSEC); 
TI (nc 9) 
break; // Wi 


// ”处 理 后 端 yorker 请 求 
if (items [0].revents & ZMQ POLLIN) { 
// 使 用 worker 地 址 进行 LRU 路 由 
zmsg t *msg = zmsg recv (backend); 
if (!msg) 
break; // aea 


// worker 的 任何 信号 均 表示 其 仍然 存活 

zframe t *address = zmsg unwrap (msg); 
worker t *worker = s worker new (address); 
s worker ready (worker, workers); 


J 


// ”处 理 控制 消息 ， 或 者 将 应 答 转 发 给 client 

if (zmsg_size (msg) == 1) { 
zframe t *frame = zmsg first (msg); 
if (memcmp (zframe data (frame), PPP READY, 1) 
&&  memcmp (zframe data (frame), PPP HEARTBEAT, 1): 

printf ("E: invalid message from worker"); 
zmsg dump (msg); 

} 
zmsg destroy (&msg); 

} 

else 
zmsg send (&msg, frontend); 

} 
if (items [i].revents & ZMQ POLLIN) { 

// ”获取 下 一 个 client 请 求 ， 交 给 下 一 个 可 用 的 worker 

zmsg t *msg = zmsg recv (frontend); 

if (!msg) 
break; // Hi 

zmsg push (msg, s workers next (workers)); 

zmsg send (&msg, backend); 


j 


// 发 送 心跳 给 空闲 的 worker 
if (zclock time () »- heartbeat at) { 
worker t *worker = (worker t *) zlist first (workers); 
while (worker) { 
zframe send (&worker-»-address, backend, 
ZFRAME REUSE + ZFRAME MORE); 
zframe t *frame - zframe new (PPP HEARTBEAT, 1); 
zframe send (&frame, backend, 9); 
worker = (worker t *) zlist next (workers); 
} 
heartbeat at = zclock time () + HEARTBEAT INTERVAL; 
} 
S workers purge (workers); 


} 


// ”程序 结束 后 进行 清理 

while (zlist size (workers)) { 
worker t *worker = (worker t *) zlist pop (workers); 
s worker destroy (&worker); 


zlist destroy (&workers); 


zctx destroy (&ctx); 
get, 


VE ———Á' ÍjjessÁ it 


该 队列 装置 使 用 心跳 机 制 扩展 了 LRU 模 式 ， 看 起 来 很 简单 ， 但 要 想 出 这 个 主意 还 挺 
难 的 。 下 文 会 更 多 地 介绍 心跳 机 制 。 


以 下 是 偏执 海盗 的 Worker 代 码 : 





ppworker: Paranoid Pirate worker in C 


72 

// ”偏执 海盗 wor ker 

J f 

Zinclude "czmq.h" 

Zdefine HEARTBEAT LIVENESS 3 Jj EW ex 
Zdefine HEARTBEAT INTERVAL 1000 // 单位 : 毫秒 
Zdefine INTERVAL INIT 1000 // ERNA 
#define INTERVAL MAX 32000 // 回 退 算法 最 大 值 
// 偏执 海盗 规范 的 常量 定义 

#define PPP_READY "\ 001" // 消息 :worker 已 就 绪 
Zdefine PPP HEARTBEAT "\002" // ”消息 : worker «3t 
// 返回 一 个 连接 至 偏执 海盗 队列 装置 的 套 接 字 


static void * 
s worker socket (2ctx t *ctx) f 


TME 


void *worker = zsocket_new (ctx, ZMQ_DEALER); 
zsocket_connect (worker, "tcp://localhost:5556"); 


// 告知 队列 worker 已 准备 就 绪 

printf ("I: worker 已 就 绪 \n" ) ; 

zframe t *frame = zframe new (PPP READY, 1); 
zframe send (&frame, worker, 0); 


return worker; 


main (void) 


Zctx t *ctx - zctx new (); 
void *worker - s worker socket (ctx); 


// 如 果 心 跳 健 康 度 为 零 ， 则 表示 队列 装置 已 死亡 
size t liveness = HEARTBEAT LIVENESS; 
size t interval - INTERVAL INIT; 


// 规律 地 发 送 心跳 
uint64 t heartbeat at = zclock time () + HEARTBEAT INTERVAL; 


srandom ((unsigned) time (NULL)); 
int cycles = 90; 
while (1) ( 
zmq pollitem t items [] = ( ( worker, ©, ZMQ POLLIN, © } . 
int rc = zmq poll (items, 1, HEARTBEAT INTERVAL * ZMQ POLL 
if (rc == -1) 
break; // P 


if (items [0].revents & ZMQ POLLIN) ( 


// 获取 消息 
// - 3 段 消息 ， 信 封 + 内 容 ， 表 示 一 个 请 求 


// - 1 段 消息 ， 表 示 心 跳 
zmsg t *msg = zmsg recv (worker); 
if (!msg) 

break; // PE 


if (zmsg size (msg) -- 3) { 
// ”若干 词 循 环 后 模拟 各 种 问题 
cycles--; 
if (cycles » 3 && randof (5) -- 0) ( 
printf ("I: J€444420Nn"); 
zmsg destroy (&msg); 
break; 
} 
else 
if (cycles > 3 && randof (5) -- 0) ( 
printf ("I: 模拟 CPU 过 载 \n" ) ; 
sleep (3); 
if (zctx interrupted) 
break; 
} 
printf (WI oe Ne EAA) 
zmsg_send (&msg, worker); 
liveness = HEARTBEAT LIVENESS; 


sleep (1); // 做 一 些 处 理工 作 
if (zctx interrupted) 
break; 
} 
else 


if (zmsg_size (msg) == 1) { 
zframe t *frame = zmsg first (msg); 
if (memcmp (zframe data (frame), PPP HEARTBEAT, 1) 
liveness - HEARTBEAT LIVENESS; 
else ( 
printi ("E: 3E En"); 
zmsg dump (msg); 


} 
zmsg destroy (&msg); 
} 
else ( 
printf ("E: GEA En"); 
zmsg dump (msg); 
} 
interval = INTERVAL INIT; 
} 
else 


if (--liveness == 0) { 
printf ("W: 心跳 失败 ， 无 法 连接 队列 装置 \n"); 
printf ("W: «zd £$^&itip$£ik...Nn", interval); 
zclock sleep (interval); 


if (interval « INTERVAL MAX) 


interval *- 2; 
zsocket destroy (ctx, worker); 
worker - s worker socket (ctx); 
liveness - HEARTBEAT LIVENESS; 


j 


/ i$ gb aW 5| 
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if (Eel. time () » heartbeat at) ( 
heartbeat at = zclock time () + HEARTBEAT INTERVAL; 
printf ("I: worker 3ENn"); 
zframe t *frame - zframe new (PPP HEARTBEAT, 1); 
zframe send (&frame, worker, 9); 


j 


zctx destroy (&ctx); 
[EC ETUR TR) go, 





几 点 说 明 : 


e 代码 中 包含 了 几 处 失败 模拟 ， 和 先前 一 样 。 这 会 让 代码 极 难 维护 ， 所 以 当 投 入 
使 用 时 ， 应 当 移 除 这 些 模拟 代码 。 

e 偏执 海盗 模式 中 队列 的 心跳 有 时 会 不 正常 ， 下 文 会 讲述 这 一 点 。 

e Worker 使 用 了 一 种 类 似 于 懒惰 海盗 client 的 重 试 机 制 ， 但 有 两 点 不 同 : 1、 回 退 


算法 设置 ; ;2、 ARS R 


尝试 运 行 以 下 代码 ， 通 流程 : 


ppqueue & 

for i in 123 4; do 
ppworker & 
sleep 1 

done 

lpclient & 


你 会 看 到 worker 逐 个 前 溃 ，client 在 多 次 尝试 后 放弃 。 你 可 以 停止 并 重启 队列 装置 ， 
client 和 worker 会 相继 重 连 ， 并 正确 地 发 送 、 处 理 和 接收 请 求 ， 顺 序 不 会 混乱 。 所 以 
说 ， 整 个 通信 过 程 只 有 两 种 情形 : 交互 成 功 ， 或 client 最 终 放弃 。 


心跳 


当 我 在 写 偏 执 海盗 模式 的 示例 时 ， 大 约 花 了 五 个 小 时 的 时 间 来 协调 队列 至 worker 的 
post aUe d qug 链 路 只 花 了 约 10 分 钟 的 时 间 。 心 跳 机 制 在 可 靠 性 上 带 来 的 

益处 有 时 还 不 及 它 所 引发 的 问题 。 使 用 过 程 中 很 有 可 能 会 产生 “虚假 故障 "的 情况 ， 
即 节点 误 认为 他 们 已 失去 连接 ， 因 为 心跳 没有 正确 地 发 送 。 


在 理解 和 实施 心跳 时 ， 需 要 考虑 以 下 几 点 


心跳 不 是 一 种 请 求 -应 答 ， 它 们 异步 地 在 节点 之 间 传 递 ， 任 一 节点 都 可 以 通过 它 
来 判断 对 方 已 经 死亡 ， 并 中 止 通信 。 


如 果 某 个 节点 使 用 持久 套 接 字 ( 即 设 定 了 套 接 字 标 识 ) ， 意 味 着 发 送 给 它 的 心 
跳 可 能 会 堆砌 ， 并 在 2 2 。 所 以 说 ，worker 不 应 该 使 用 持久 套 接 
字 。 示 例 代 码 使 用 持久 套 接 字 是 为 了 便于 调试 ， 而 且 代 码 中 使 用 了 随机 的 套 接 
字 标 识 ， 避 免 重 用 之 前 的 标识 。 


使 用 过 程 中 ， 应 先 让 心跳 工作 起 来 ， 再 进行 后 面 的 消息 处 理 。 你 需要 保证 启动 
任 一 节点 后 ， 心 跳 都 能 正确 地 执行 。 停 止 并 重启 他 们 ， 模 拟 冻结 、 崩 演 等 情况 
来 进行 测试 。 


当 你 的 主 循环 使 用 了 zmq_ poli) ， 则 应 该 使 用 另 一 个 计时 器 来 触发 心跳 。 不 要 
使 用 主 循环 来 控制 心跳 的 发 送 ， 这 回 导 致 过 量 地 发 送 心跳 (阻塞 网 络 ) ， 或 是 
发 送 得 太 少 (导致 节点 断 开 ) 。zhelpers 包 提供 了 s - Clock() i d vr ž 前 系统 
时 间 改 ， 单 位 是 毫秒 ， 可 以 用 它 来 控制 心跳 的 发 送 间隔 。C 代 码 如 下 


wa 2ni ET EA 
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uint64. t heartbeat at = s clock () + HEARTBEAT INTERVAL; 
while (1) { 


zmq poll (items, 1, HEARTBEAT INTERVAL * 1000); 


// 无 论 zZmq_pol11 的 行为 是 什么 ， 都 使 用 以 下 逻辑 判断 是 否 发 送 心跳 
if a Ee () > heartbeat at) { 
发 送 心跳 给 a 
// 设置 下 一 次 心跳 1 uM 


heartbeat E - s clock () * HEARTBEAT INTERVAL; 


主 循环 应 该 使 用 心跳 间隔 作为 超时 时 间 。 显 然 不 能 使 用 无 超时 时 间 的 设置 ， 而 
短 于 心跳 间隔 也 只 是 浪费 循环 次 数 而 已 。 


使 用 简单 的 追踪 方式 来 进行 追踪 ， 如 直接 输出 至 控制 
门 : 使 用 zmsg() 函 数 打印 套 接 字 内 容 ; 对 消息 进行 编 


在 丫 实 的 应 用 程序 中 ， 心 跳 必须 是 可 以 配置 的 ， 并 能 和 
点 需要 高 频 心 跳 ， 如 10 毫 秒 ， 另 一 些 节点 则 可 能 只 需 
"po 


如 果 你 要 对 不 同 的 节 点 发 送 关 不 同 频率 的 心跳 ， 那么 么 poll 的 超时 时 间 应 设置 为 最 
短 的 心跳 间隔 。 


也 许 你 会 想 要 用 一 个 单独 的 套 接 字 来 处 理 心跳 ， 这 看 起 来 很 棒 ， 可 以 将 同步 的 
请 求 -应 答 和 异步 的 心跳 隔离 开 来 。 Fe a ， 原因 有 几 点 : 首 
先 、 发 送 数据 时 其 实 是 不 需要 发 送 心跳 的 ; 其 次 、 套 接 字 可 能 会 因为 网 络 问题 
而 阻塞 ， 你 需要 了 没 法 知道 用 干 发 送 数据 的 套 接 字 停 上 响应 的 原因 是 死亡 了 还 是 
过 于 繁忙 而 已 ， 这 样 你 就 需要 对 这 个 套 接 字 进行 心跳 。 最 后 ， 处 理 两 个 套 接 字 
要 比 处 理 一 个 复杂 得 多 。 


CD 
eo 
S 
PE 
[x 
| 
~ 
€ 
Ne] 
E 
yy 
-3 


e 我 们 没有 设置 client 至 队列 的 心跳 ， 因 为 这 太 过 复杂 了 ， 而 且 没 有 太 大 价值 。 


约定 和 协议 
也 许 你 已 经 注意 到 ， 由 于 心跳 机 制 ， 偏 执 海盗 模式 和 简单 海盗 模式 是 不 兼容 的 。 


其 实 ， 这 里 我 们 需要 写 一 个 协议 。 也 许 在 试验 阶段 是 不 需要 协议 的 ， 但 这 在 真实 的 
应 用 程序 中 是 有 必要 。 如 果 我 们 想 用 其 他 语言 来 写 worker 怎 么 办 ?我 们 是 否 需要 通 
过 源 代码 来 查看 通信 过 程 ? 如 果 我 们 想 改 变 协 议 怎 么 办 ?规范 可 能 很 简单 ， 但 并 不 
显然 。 越 是 成 功 的 协议 ， 就 会 越 为 复杂 。 


一 个 缺乏 约定 的 应 用 程序 一 定 是 不 可 复 用 的 ， 所 以 让 我 们 来 为 这 个 协议 写 一 个 规 
范 ， 怎 么 做 呢 ? 
e 位 于 rfc.zeromq.org 的 wiki 页 上 ， 我 们 特地 设置 了 一 个 用 于 存放 ZMQ 协 议 的 页 
üo 
o 要 创建 一 个 新 的 协议 ， 你 需要 注册 并 按照 指导 进行 。 过 程 很 直接 ， 但 并 不 
一 定 所 有 人 都 能 撰写 技术 性 文档 。 
我 大 约 花 了 15 分 钟 的 时 间 草 拟 海 资 模式 规范 【PPP) » HUE Xo ERA o 
要 用 PPP 协 议 进行 幢 实 环境 下 的 编程 ， 你 还 需要 : 
e 在 READY 命 令 中 加 入 版 本 号 ， 这 样 就 能 再 日 后 安全 地 新 增 PPP 版 本 号 。 
e 目前 ，READY 和 HEARTBEAT 信 号 并 没有 指定 其 来 源 于 请 求 还 是 应 答 。 要 区 分 
他 们 ， 需 要 新 建 一 个 消息 结构 ， 其 中 包含 “消息 类 型 "这 一 信息 。 


面向 服务 的 可 靠 队 列 (管家 模式 ) 


世上 的 事物 往往 瞬息 万 变 ， 正 当 我 们 期 待 有 更 好 的 协议 来 解决 上 一 节 的 问题 时 ， 已 
经 有 人 制定 好 了 : 


e http://rfc.zeromq.org/spec:7 


这 份 协议 只 有 一 页 ， 它 将 PPP 协 议 变 得 更 为 坚固。 我 们 在 设计 复杂 架构 时 应 该 这 样 
做 :首先 写 下 约定 * 再 用 软件 去 侨 现 它 。 

管家 模式 协议 (MDP) 在 扩展 PPP 协 议 时 引入 了 一 个 有 趣 的 特性 : client 发 送 的 每 
一 个 请 求 都 有 一 个 "服务 名 称 ”， 而 worker 在 像 队 列 装置 注册 时 需要 告知 自己 的 服务 
类 型 。MDP 的 优势 在 于 它 来 源 于 现实 编程 ， 协 议 简单 ， 且 容易 提升 。 


引入 “服务 名 称 "的 机 制 ， 是 对 偏执 海盗 队列 的 一 个 简单 补充 ， 而 结果 是 让 其 成 为 一 
个 面向 服务 的 代理 。 














"Give me coffee" "Give me tea" 


Broker 





Figure 4 —  Majordomo Pattern 


在 实施 管家 模式 之 前 ， 我 们 需要 为 client 和 worker 编 写 一 个 框架 。 如 果 程 序 员 可 以 通 
过 简单 的 API 来 实现 这 种 模式 ， 那 就 没有 必要 让 他 们 去 了 解 管家 模式 的 协议 内 容 和 
实现 方法 了 。 所 以 ， 我 们 第 一 个 协议 〈 即 管家 模式 协议 ) 定义 了 分 布 式 架构 中 节点 
是 如 何 互相 交互 的 ， 第 二 个 协议 则 要 定义 应 用 程序 应 该 如 何 通过 框架 来 使 用 这 一 协 
议 。 管家 模式 有 两 个 端点 ， 客 户 端 和 服务 端 。 因 为 我 们 要 为 client 和 worker 都 撰写 
征 架 ， 所 以 就 需要 提供 两 套 AP|。 以 下 是 用 简单 的 面向 对 象 方法 设计 的 client 端 AP1 
锥 形 ， 使 用 的 是 C 语 言 的 ZFL library » 


mdcli t *mdcli new (char *broker); 
void mdcli destroy (mdcli t **self p); 
zmsg t *mdcli send (mdcli t *self, char *service, zmsg t **reqi 





ja[nc—— c I 


就 这 么 简单 。 我 们 创建 了 一 个 会 话 来 和 代理 通信 ， 发 送 并 接收 一 个 请 求 ， 最 后 关闭 
连接 。 以 下 是 Worker 端 API| 的 锥 形 。 


mdwrk_t *mdwrk_new (char *broker,char *service); 
void mdwrk destroy (mdwrk t **self p); 
zmsg t *mdwrk recv (mdwrk t *self, zmsg t *reply); 


上 面 两 段 代 码 看 起 来 差不多 ， 但 是 worker 端 API 略 有 不 同 。worker 第 一 次 执行 recv() 
后 会 传递 一 个 空 的 应 答 ， 之 后 才 传 递 当 前 的 应 答 ， 并 获得 新 的 请 求 。 


两 段 的 API 都 很 容易 开发 ， 只 需 在 偏执 海盗 模式 代码 的 基础 上 修改 即 可 。 以 下 是 
client API : 


mdcliapi: Majordomo client API in C 


9 c——————————————————————-—E—————————————Ó———————€———————————————————— 
micimapine 
Majordomo Protocol Client API 
Implements the MDP/Worker spec at http://rfc.zeromq.org/spec:7 
Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 
This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 
This is free software; you can redistribute it and/or modify il 
the terms of the GNU Lesser General Public License as publishec 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 
This software is distributed in the hope that it will be usefu. 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GI 
Lesser General Public License for more details. 
You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http: //www.gnu.org/licenses/». 

9 c -—-——————X——— —À— —— —!— nó! 


Zinclude "mdcliapi.h" 


// ”类 结构 
// 我 们 会 通过 成 员 方法 来 访问 这 些 属性 


struct mdcli t ( 


ZC LXE Cx NA dE Se 

char *broker; 

void *client; // ”连接 至 代理 的 套 接 字 

int verbose; // 使 用 标准 输出 打印 当前 活动 

int timeout; // 请 求 超时 时 间 

int retries; // 请 求 重 试 次 数 
}; 
OCR 


// 连接 或 重 连 代理 
void s mdcli connect to broker (mdcli t *self) 
if (self-»client) 
zsocket destroy (self-»ctx, self-»client); 


self-»client = zsocket new (self-»ctx, ZMQ REQ); 
zmq connect (self-»client, self-»broker); 
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if (self-»verbose) 
zclock log ("I: 正在 连接 至 代理 %s...", self-»broker); 


} 

// -------------- 
// ”构造 函数 

mdcli t * 

mdcli new (char *broker, int verbose) 

{ 


assert (broker); 


mdcli t *self = (mdcli t *) zmalloc (sizeof (mdcli t)); 
self-»ctx = zctx new (); 
self-»-broker = strdup (broker); 


self-»verbose = verbose; l 
self->timeout = 2500; E 
self->retries = 3; // ”尝试 次 数 


s mdcli connect to broker (self); 
return self; 


void 
mdcli destroy (mdcli t **self p) 
{ 
assert (self_p); 
if (*self_p) { 
mdcli_t *self = *self_p; 
zctx_destroy (&self->ctx); 
free (self->broker); 
free (self); 
*self_p = NULL; 


} 
} 
// ----------------- 
// ” 设 定 请 求 超时 时 间 
void 
mdcli set timeout (mdcli t "self, int timeout) 
{ 


assert (self); 
self->timeout = timeout; 


void 
mdcli set retries (mdcli t *self, int retries) 
1 

assert (self); 

self-»retries = retries; 


// ”向 代理 发 送 请 求 ， 并 尝试 获取 应 
// ”对 消息 保持 所 有 权 ， 发 送 后 销 角 
// ”返回 应 答 消息 ;或 NULL。 


zmsg t * 
mdcli send (mdcli t *self, char *service, zmsg t **request p) 
1 

assert (self); 

assert (request p); 

zmsg t *request - *request p; 


// 用 协议 前 组 包装 消息 

// Frame 1: "MDPCxy" (six bytes, MDP/Client x.y) 

// Frame 2: 服务 名 称 (可 打印 字符 串 ) 

zmsg pushstr (request, service); 

zmsg pushstr (request, MDPC CLIENT); 

if (self-»verbose) ( 
zclock log ("I: 发 送 请 求 给 '%s' HR A:", service); 
zmsg dump (request); 


} 


int retries left = self-»retries; 

while (retries left && !zctx interrupted) ( 
zmsg t *msg - zmsg dup (request); 
zmsg send (&msg, self-»client); 


while (TRUE) ( 
// 轮 询 套 接 字 以 接收 应 答 ， 有 超时 时 间 
zmq pollitem t items [] = ( 
{ self-»client, ©, ZMQ POLLIN, 0 } Y; 
int rc = zmq poll (items, 1, self-»-timeout * ZMQ POLL ! 
if (rc -- -1) 
break; // Bf 


// ” 收 到 应 答 后 进行 处 理 
if (items [0].revents & ZMQ POLLIN) { 
zmsg t *msg - zmsg recv (self-»client); 
if (self-»verbose) ( 
zclock log ("I: received reply:"); 
zmsg dump (msg); 


// 不 要 尝试 处 理 错误 ， 直 接 报错 即 可 
assert (zmsg size (msg) >= 3); 


zframe t *header - zmsg pop (msg); 
assert (zframe streq (header, MDPC CLIENT)); 
zframe destroy (&header); 


zframe t *reply service - zmsg pop (msg); 
assert (zframe streq (reply service, service)); 
zframe destroy (&reply service); 


zmsg destroy (&request); 
return msg; // RD 
} 
else 
if (--retries left) { 
if (self-»verbose) 
Se .log ("W: no reply, reconnecting..."); 
// $33 € XA 
Se (self); 
zmsg t *msg - zmsg dup (request); 
zmsg send (&msg, self-»client); 


} 
else ( 
if (self-»-verbose) 
zclock log ("W: 发 生 严 重 错误 ， 放 弃 重 试 。")， 
break; // ”放弃 
} 


} 


if (zctx interrupted) 

printf ("W: 4&5] T Et A » i oRclient3t££.. Nn"); 
zmsg destroy (&request); 
return NULL; 





以 下 测试 程序 会 执行 10 万 次 请 求 应 答 : 


mdclient: Majordomo client application in C 


ZMQ 指南 


W 
y 
VM 
"un 


Mi 


管家 模式 协议 - 客户 端 示例 
使 用 mdc1Li API 隐 藏 管家 模式 协议 的 内 部 实现 


让 我 们 直接 编译 这 上 段 代 码 ， 不 生成 类 库 


#include "mdcliapi.c" 


ne magn eine argc, char arov) 


( 


j 


int verbose - (argc » 1 && streq (argv [1], "-v")); 
mdcli t *session - mdcli new ("tcp://localhost:5555", verbose), 


int count; 
for (count = 0; count < 100000; count--*) ( 
zmsg t *request - zmsg new (); 
zmsg pushstr (request, "Hello world"); 
zmsg t *reply - mdcli send (session, "echo", &request); 


if (reply) 
zmsg destroy (&reply); 
else 
break; //. TELEMRGRE 


} 

printf ("已 处 理 %d 次 请 求 -应 答 \n"，count); 
mdcli destroy (&session); 

return 07 


Aoo | 
下 面 是 worker 的 API : 


mdwrkapi: Majordomo worker API in C 


mdwrkapi.c 


Majordomo Protocol Worker API 
Implements the MDP/Worker spec at http://rfc.zeromq.org/spec:7 


Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 


This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 
This is free software; you can redistribute it and/or modify i! 
the terms of the GNU Lesser General Public License as publishet 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 


This software is distributed in the hope that it will be usefu. 


可 靠 的 请 求 -应 答 模式 


ZMQ 指南 


WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the G! 
Lesser General Public License for more details. 


You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http://www.gnu.org/licenses/». 


nut 
Zinclude "mdwrkapi.h" 


// 可靠 性 参数 
#define HEARTBEAT_LIVENESS 3 // &€94à:3-5 


// ”类 结构 
// ”使 用 成 员 郊 数 访问 属性 


struct mdwrk t ( 
ZEO EER C EX, H AEI ecd 
char *broker; 
char *service; 


void *worker; // 连接 至 代理 的 套 接 字 
int verbose; // 使 用 标准 输出 打印 活动 
// 心跳 设置 

uint64 t heartbeat at; // 发 送 心跳 的 时 间 
size t liveness; LAUS AUR TE 

int heartbeat; // 心跳 延 时 ， 单 位 : 毫秒 
int reconnect; // EZER > Ži: 毫秒 


// 内 部 状态 
int expect reply; // ”初始 值 为 0 


// 应 答 地 址 ， 如 果 存 在 的 话 
zframe t *reply to; 


Hh 


es 
// ”发 送 消息 给 代理 
// ”如 果 没 有 提供 消息 ， 则 内 部 创建 一 个 


static void 

s mdwrk send to broker (mdwrk t *self, char *command, char *option, 
zmsg t *msg) 

i 


msg - msg? zmsg dup (msg): zmsg new (); 
// 将 协议 信封 压 入 消息 顶部 
if (option) 


zmsg pushstr (msg, option); 
zmsg pushstr (msg, command); 
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zmsg pushstr (msg, MDPW WORKER); 
zmsg pushstr (msg, ""); 


if (self-»verbose) ( 
zclock log ("I: sending %s to broker", 
mdps commands [(int) *command]); 
zmsg dump (msg); 


j 


zmsg send (&msg, self-»worker); 


qus cM C A n cuu AA 


// 连接 或 重 连 代 理 


void s mdwrk connect to broker (mdwrk t *self) 
{ 
if (self->worker) 
zsocket destroy (self->ctx, self->worker); 
self->worker = zsocket new (self->ctx, ZMQ DEALER); 
zmq connect (self-»worker, self-»broker); 
if (self-»verbose) 
zclock log ("I: 正在 连接 代理 %s...", self-»broker); 


// 向 代理 注册 服务 类 型 

s mdwrk send to broker (self, MDPW READY, self-»service, 
// 当心 跳 健康 度 为 零 ， 表 示人 代理 已 断 开 连接 

self->liveness = HEARTBEAT LIVENESS; 

self-»-heartbeat at = zclock time () + self->heartbeat; 


mdwrk t * 
mdwrk new (char *broker,char *service, int verbose) 
{ 

assert (broker); 

assert (service); 


mdwrk t *self = (mdwrk t *) zmalloc (sizeof (mdwrk t)); 
self-»ctx = zctx new (); 

self-»-broker = strdup (broker); 

self-»service = strdup (service); 


self-»verbose = verbose; | 
self->heartbeat = 2500; AREE SEU) 
self-»reconnect = 2500; // 毫秒 


s mdwrk connect to broker (self); 
return self; 


NULL); 


void 
mdwrk destroy (mdwrk t **self p) 
i 
assert (self p); 
(Sen f 
mdwrk t *self - *self p; 
zctx destroy (&self-»ctx); 
free (self-»broker); 
free (self-»service); 
free (self); 
*self p - NULL; 


人 
// 设置 心跳 延迟 


void 
mdwrk set heartbeat (mdwrk t *self, int heartbeat) 


self-»-heartbeat = heartbeat; 


} 
// ------------- 
// 设置 重 连 延迟 
void 
mdwrk set reconnect (mdwrk t *self, int reconnect) 
t 
self-»reconnect = reconnect; 
} 
// ------------- 
// ” 若 有 应 答 则 发 送 给 代理 ， 并 等 待 新 的 请 求 
ZmSogmte” 
mdwrk recv (mdwrk t *self, zmsg t **reply p) 
{ 


// ”格式 化 并 发 送 请 求 传 入 的 应 答 
assert (reply_p); 
zmsg_t *reply = *reply_p; 
assert (reply || !self-»expect reply); 
if (reply) { 
assert (self-»reply to); 
zmsg wrap (reply, self-»reply to); 


s mdwrk send to broker (self, MDPW REPLY, NULL, reply); 
zmsg destroy (reply p); 


} 
self->expect_reply = 


while (TRUE) ( 
zmq pollitem t items [] = ( 
{ self-»worker, ©, ZMQ POLLIN, 0 ) Y; 
int rc = zmq poll (items, 1, self-»-heartbeat * ZMQ POLL MSE 
i (re = sil) 
break; //. R 


if (items [0].revents & ZMQ_POLLIN) { 
zmsg_t *msg = zmsg_recv (self->worker); 
if (!msg) 
break; // PH 
if (self->verbose) { 
zclock log ("I: 从 代理 处 获得 消息 :")， 
zmsg_dump (msg); 


self->liveness = HEARTBEAT LIVENESS; 


XX PEEL X lz Jg Z4. Bg wp 
// TANEET * BIAk $8 PD *] 


assert (zmsg size (msg) »- 3); 


zframe t *empty - zmsg pop (msg); 
assert (zframe streq (empty, "")); 
zframe destroy (&empty); 


zframe t *header - zmsg pop (msg); 
assert (zframe streq (header, MDPW WORKER)); 
zframe destroy (&header); 


zframe t *command - zmsg pop (msg); 
amr (zframe . streq Reda MDPW um o Um 
V ux Y 之 Wü 有 地址 





// 但 在 E 我 4] 日 ZN 外 人行 
self- EE to - zmsg unwrap (msg); 
zframe destroy (&command); 


~£ 


return msg; // ”处 理 请 求 
} 
else 
站 让 ac streq (command, MDPW HEARTBEAT)) 
// 不 对 心跳 做 任何 处 理 
else 


if (zframe streq (command, MDPW DISCONNECT)) 
s mdwrk connect to broker (self); 

else ( 
zclock_log ("E: 消息 不 合法 ")， 
zmsg_dump (msg); 

} 

zframe destroy (&command); 

zmsg destroy (&msg); 


E 


} 


else 
if (--self->liveness == 0) { 
if (self->verbose) 
zclock log ("W: 失去 与 代理 的 连接 - EAER... "); 
zclock sleep (self-»reconnect); 
s mdwrk connect to broker (self); 


2/5 适时 地 发 送 消息 

if (zclock time () > self->heartbeat at) { 
s mdwrk send to broker (self, MDPW HEARTBEAT, NULL, NUI 
self-»-heartbeat at = zclock time () + self-»-heartbeat; 


j 


if (zctx interrupted) 
printf ("W: a T EE A > "PuEworker...Nn"); 
return NULL; 





以 下 测试 程序 实现 了 名 为 echo 的 服务 : 


mdworker: Majordomo worker application in C 


// 
Y/Y 
724 
VM 


du 


管家 模式 协议 - worker 示 例 
使 用 mdwrk API 隐 藏 MDP 协 议 的 内 部 实现 


让 我 们 直接 编译 代码 ， 而 不 创建 类 库 


#include "mdwrkapi.c" 


meemalne mt arg Char carova) 


í 


int verbose = (argc > 1 && streq (argv [1], "-v")); 
mdwrk_t *session = mdwrk_new ( 
"tcp://localhost:5555", "echo", verbose); 


zmsg_t *reply = NULL; 
while (1) { 
zmsg t *request - mdwrk recv (session, &reply); 
if (request -- NULL) 
break; // worker iE 
reply - request; // echo/R 4... SC AR X de 1) 


mdwrk destroy (&session); 
rae teli 


几 点 说 明 : 


e API 是 单线 程 的 ， 所 以 说 worker 不 会 再 后 台 发 送 心 跳 ， 而 这 也 是 我 们 所 期 望 
的 : 如 果 Worker 应 用 程序 停止 了 ， 心 跳 就 会 跟着 中 止 ， 代 理 便 会 停止 向 该 
Worker 发 送 新 的 请 求 。 


e wroker API 没 有 做 回 退 算 法 的 设置 ， 因 为 这 里 不 值得 使 用 这 一 复杂 的 机 制 。 


e API 没 有 提供 任何 报错 机 制 ， 如 果 出 现 问题 ， 它 会 直接 报 断 言 〈《 或 异常 ， 依 语 
言 而 定 ) 。 这 一 做 法 对 实验 性 的 编程 是 有 用 的 ， 这 样 可 以 立刻 看 到 执行 结果 。 
但 在 站 实 编程 环境 中 ，API 应 该 足够 健壮 ， 合 适 地 处 理 非法 消息 。 


也 许 你 会 问 ，worker API| 为 什么 要 关闭 它 的 套 接 字 并 新 开 一 个 呢 ? 特别 是 ZMQ 是 有 
重 连 机 制 的 ， 能 够 在 节点 归来 后 进行 重 连 。 我 们 可 以 回顾 一 下 简单 海盗 模式 中 的 
Worker， 以 及 偏执 海盗 模 式 中 的 worker 来 加 以 理解 。ZMQ 确 实 会 进行 自动 重 连 ， 但 
如 果 代 理 死亡 并 重 连 ，worker 并 不 会 重新 进行 注册 。 这 个 问题 有 两 种 解决 方案 : 一 
是 我 们 这 里 用 到 的 较为 简便 的 方案 ， 即 当 Worker 判 断代 理 已 经 死亡 时 ， 关 闭 它 的 套 
接 字 并 重头 来 过 ; 另 一 个 方案 是 当代 理 收 到 未 知 worker 的 心跳 时 要 求 该 Worker 对 其 
提供 的 服务 类 型 进行 注册 ， 这 样 一 来 就 需要 在 协议 中 说 明 这 一 规则 。 


下 面 让 我 们 设计 管家 模式 的 代理 ， 它 的 核心 代码 是 一 组 队列 ， 每 种 服务 对 应 一 个 队 
列 。 我 们 会 在 worker 出 现时 创建 相应 的 队列 (worker 消 失 时 应 该 销毁 对 应 的 队列 ， 
不 过 我 们 这 里 暂时 不 考虑 ) 。 额 外 的 ， 我 们 会 为 每 种 服务 维护 一 个 worker 的 队列 。 
为 了 让 C 语 言 代 码 更 为 易 读 易 写 ， 我 使 用 了 ZFL 项 目 提供 的 哈 希 和 链表 容器 ， 并 命 
名 为 zhash 和 zlist。 如 果 使 用 现代 语言 编写 ， 那 自然 可 以 使 用 其 内 置 的 容器 。 


mdbroker: Majordomo broker in C 


// 管家 模式 协议 - 代理 
// 协议 http://rfc.zeromq.org/spec:7 和 spec:8 的 最 简 实 现 


#include "czmq.h" 
#include "mdp.h" 


// ”一 般 我 们 会 从 配置 文件 中 获取 以 下 值 

#define HEARTBEAT LIVENESS 3 // ” 合理 值 : 3-5 

#define HEARTBEAT INTERVAL 2500 // 单位 : 毫秒 

#define HEARTBEAT EXPIRY HEARTBEAT INTERVAL * HEARTBEAT LIVENES: 


WA 
typedef struct { 


zcbxct FODS Mi Ep SE 

void *socket; // ”用 于 连接 client 和 worker 的 套 接 字 
int verbose; // ”使 用 标准 输出 打印 活动 信息 

char *endpoint; // RERE 8| 5358 A 

zhash-t *services:; // ”已 知 服务 的 哈 希 表 

zhash t *workers; // ”已 知 worker 的 哈 希 表 

zlist t *waiting; // 正在 等 待 的 worker 队 列 

uint64 t heartbeat at; // 发 送 心跳 的 时 间 


) broker t; 


ZMQ 指南 


77 €AX—^4RA 
typedef struct ( 


char *name; // 服务 名 称 

zlist t *requests; // ”客户 端 请 求 队列 
zlist_t *waiting; // 正在 等 待 的 worker 队 列 
size t workers; // "HworkerZ 


) service t; 


// 定义 一 个 worker， 状 态 为 空闲 或 占用 
typedef struct ( 


char *identity: // ”Worker 的 标识 

zframe t *address; // ”地 址 帧 

service t *service; // MARJ 

int64 t expiry; // 过 期 时 间 ， 从 未 收 到 心跳 起 计时 


) worker t; 


// ------------------ nnn 
// ”代理 使 用 的 函数 
static broker t * 
s broker new (int verbose); 
static void 
s broker destroy (broker t **self p); 
static void 
s broker bind (broker t *self, char *endpoint); 
static void 
S broker purge workers (broker t *self); 


// BRA AR FI 8 C 
static service t * 

Ss service require (broker t *self, zframe t “service frame); 
static void 

S service destroy (void *argument); 
State VOTA 

S service dispatch (broker t “self, service t *service, zmsg t 
StatTc vod 

s service internal (broker t *self, zframe t *service frame, zr 


// ”worker 使 用 的 函数 
static worker t * 
s worker require (broker t “self, zframe t *address); 
static void 
s worker delete (broker t *self, worker t *worker, int disconn: 
static void 
s worker destroy (void *argument); 
static void 
s worker process (broker t “self, zframe t *sender, zmsg t *ms‘ 
static void 
s worker send (broker t *self, worker t *worker, char *command, 
char *option, zmsg t *msg); 
static void 
s worker waiting (broker t *self, worker t *worker); 
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"PA 


客户 端 使 用 的 函数 


static void 


£f 
// 


S client process (broker t *self, zframe t *sender, zmsg t *mst 


主 程序 


dnt magnobut-arge ehan amgve 


í 


int verbose = (argc > 1 && streq (argv [1], "-v")); 


broker_t *self = s_broker_new (verbose); 
s broker bind (self, "tcp://*:5555"); 


// 接受 并 处 理 消 息 ， 直 至 程序 被 中 止 
while (TRUE) ( 
zmq pollitem t items [] = ( 
{ self-»5socket, ©, ZMQ POLLIN, 0 ) Y; 


int rc = zmq poll (items, 1, HEARTBEAT INTERVAL * ZMQ POLL. 


if (e= i) 
break; // P% 


M Process next input message, if any 
if (items [90].revents & ZMQ POLLIN) ( 
zmsg t *msg - zmsg recv (self-»socket); 
if (!msg) 
break; // 中 断 
if (self->verbose) ( 
zclock_log ( "I: 收 到 消息 :")， 
zmsg_dump (msg); 
} 
zframe t *sender = zmsg pop (msg); 
zframe t *empty = zmsg pop (msg); 
zframe t *header - zmsg pop (msg); 


if (zframe streq (header, MDPC CLIENT)) 
S client process (self, sender, msg); 
else 
if (zframe streq (header, MDPW WORKER) ) 
S worker process (self, sender, msg); 
else ( 
zclock log ("E: 非法 消息 :")， 
zmsg dump (msg); 
zmsg destroy (&msg); 
} 
zframe destroy (&sender); 
zframe destroy (&empty); 
zframe destroy (&header); 
} 
// 断 开 并 删除 过 期 的 worker 
// 适时 地 发 送 心跳 给 Worker 
if (zclock time () > self->heartbeat at) ( 


s broker purge workers (self); 
worker t *worker = (worker t *) zlist first (self-»wail 
while (worker) { 
s worker send (self, worker, MDPW HEARTBEAT, NULL, 
worker = (worker t *) zlist next (self-»waiting); 


self--heartbeat at = zclock time () + HEARTBEAT INTERV/ 
} 
} 
if (zctx interrupted) 
printf ("W: 收 到 中 断 消息 ， 关闭 中 ...\n"); 


s broker destroy (&self); 
return 0; 


Ie rer 
// ”代理 对 得 的 构造 函数 


static broker t * 
s broker new (int verbose) 


{ 
broker t *self = (broker t *) zmalloc (sizeof (broker t)); 
// ”初始 化 代理 状态 
self->ctx = zctx_new (); 
self->socket = zsocket new (self->ctx, ZMQ ROUTER); 
self-»verbose = verbose; 
self->services = zhash_new (); 
self->workers = zhash_new (); 
self->waiting = zlist_new (); 
self->heartbeat_at = zclock_time () + HEARTBEAT_INTERVAL; 
return self; 
} 
// --------------------------------------------------------------: 


// ”代理 对 象 的 析 构 函数 


static void 
s broker destroy (broker t **self p) 
1 
assert (self p); 
if (*self_p) { 
broker_t *self = *self_p; 
zctx_destroy (&self->ctx); 
zhash_destroy (&self->services); 
zhash_destroy (&self->workers); 
zlist_destroy (&self->waiting); 
free (self); 
*self_p = NULL; 


"A —————————————— E 
// ”将 代理 套 接 字 绑 定 至 端点 ， 可 以 重复 调用 该 函数 
// 我 们 使 用 一 个 套 接 字 来 同时 处 理 CLient 和 worker 


void 
s broker bind (broker t *self, char *endpoint) 
{ 
zsocket_bind (self->socket, endpoint); 
zclock log ("I: MDP broker/0.1.1 is active at %s", endpoint); 


pcc TU LORE ROA ROO E EC OE EE 
// 删除 空闲 状态 中 过 期 的 worker 


static void 
s broker purge workers (broker t *self) 


{ 
worker t *worker = (worker t *) zlist first (self->waiting); 
while (worker) { 
if (zclock time () < worker-»expiry) 
continue; // 该 worker 未 过 期 ， 停 止 搜索 
if (self-»verbose) 
zclock log ("I: 正在 删除 过 期 的 worker: 96s", 
worker->identity); 
s worker delete (self, worker, 0); 
worker = (worker t *) zlist first (self-»waiting); 
} 
} 
// -------------- 


// 定位 或 创建 新 的 服务 项 


static service t * 
s service require (broker t *self, zframe t *service frame) 
i 

assert (service frame); 

char *name - zframe strdup (service frame); 


service t *service - 
(service t *) zhash lookup (self-»services, name); 
if (service -- NULL) ( 
service - (service t *) zmalloc (sizeof (service t)); 
service-»name = name; 
service-»requests = zlist new (); 
service-»waiting = zlist new (); 
zhash insert (self-»services, name, service); 
zhash freefn (self-»-services, name, s service destroy); 
if (self-»verbose) 
zclock log ("I: 收 到 消息 :")， 


else 


free (name); 


return service; 


// 当 服 务 从 broker->services 中 移 除 时 销毁 该 服务 对 象 


static void 
S service destroy (void *argument) 


t 
service t *service - (service t *) argument; 
// 销毁 请 求 队列 中 的 所 有 项 目 
while (zlist size (service-»requests)) ( 
zmsg t *msg = zlist pop (service-»requests); 
zmsg destroy (&msg); 
zlist destroy (&service-»requests); 
zlist destroy (&service-»waiting); 
free (service-»name); 
free (service); 
} 
// ------------------------ rrn 


// 可 能 时 ， 分 发 请 求 给 等 待 中 的 worker 


static void 
S service dispatch (broker t *self, service t *service, zmsg t *mst 
{ 
assert (service); 
if (msg) // 将 消息 加 入 队列 
zlist append (service-»requests, msg); 


s broker purge workers (self); 
while (zlist size (service-»waiting) 
&& zlist size (service-»requests)) 


{ 
worker t *worker = zlist pop (service-»waiting); 
zlist remove (self-»waiting, worker); 
zmsg t *msg - zlist pop (service-»requests); 
s worker send (self, worker, MDPW REQUEST, NULL, msg); 
zmsg destroy (&msg); 
} 
} 
// --------------- 


// ”使 用 8/MMI 协 定 处 理 内 部 服务 


static void 
s service internal (broker t *self, zframe t *service frame, zmsg | 
t 

char *return code; 

if (zframe streq (service frame, "mmi.service")) ( 


char *name - zframe strdup (zmsg last (msg)); 
service t *service - 
(service t *) zhash lookup (self-»services, name); 
return code - service && service-»workers? "200": "404"; 
free (name); 
J 
else 
return code - "501"; 


zframe reset (zmsg last (msg), return code, strlen (return cod: 


// ” 移 除 并 保存 返回 给 client 的 信封 ， 插 入 协议 头 信 息 和 服务 名 称 ， 并 重新 包装 信和 
zframe t *client = zmsg unwrap (msg); 

zmsg push (msg, zframe dup (service frame)); 

zmsg pushstr (msg, MDPC CLIENT); 

zmsg wrap (msg, client); 

zmsg send (&msg, self-»socket); 


T ee 
// ” 按 需 创建 worker 


static worker t * 
s worker require (broker t *self, zframe t *address) 


( 


assert (address); 


// Self->workers 使 用 wroker 的 标识 为 键 
char *identity = zframe strhex (address); 
worker t *worker - 
(worker t *) zhash lookup (self-»workers, identity); 


if (worker == NULL) ( 
worker = (worker t *) zmalloc (sizeof (worker t)); 
worker-»identity = identity; 
worker-»-address = zframe dup (address); 
zhash insert (self-»-workers, identity, worker); 
zhash freefn (self-»2workers, identity, s worker destroy); 
if (self-»verbose) 
zclock log ("I: 正在 注册 新 的 worker: 9*s", identity); 
} 
else 
free (identity); 
return worker; 


ye e M UL S a E 
// 从 所 有 数据 结构 中 删除 WNroker， 并 销毁 worKker 对 象 


static void 
S worker delete (broker t *self, worker t *worker, int disconnect) 


( 


assert (worker); 


j 


"2 
71 


if (disconnect) 


s worker send (self, worker, MDPW DISCONNECT, NULL, NULL); 


if (worker-»service) ( 


zlist remove (worker-»service-»waiting, worker); 


worker-»service-»workers--; 
} 
zlist remove (self->waiting, worker); 
// ”以 下 方法 间接 调用 了 s_worker_destroy() 方 法 


zhash delete (self->workers, worker->identity); 


g&l 


worker broker ->workers T £M: » 4 %worker 3t $ 


static void 
s worker destroy (void *argument) 


1 


} 


// 
2 


worker t *worker = (worker t *) argument; 
zframe destroy (&worker-»address); 

free (worker-»identity); 

free (worker); 


^: worker A iX ok 89 7H 


static void 


s worker process (broker t *self, 


( 


zframe t *sender, 


Fe n 


zmsg t *msg) 


assert (zmsg size (msg) »- 1); // ”消息 中 至 少 包 含 命令 帧 


zframe t *command = zmsg pop (msg); 
char *identity - zframe strhex (sender); 


int worker ready = (zhash lookup (self-»workers, identity) !- i 
free (identity); 
worker t *worker = s worker require (self, sender); 
if (zframe streq (command, MDPW READY)) { 
// ” 若 Worker 队 列 中 已 有 该 Worker， 但 仍 收 到 了 它 的 “已 就 绪 ”" 消 息 ， 则 删除 


if (worker ready) 
s worker delete (self, worker, 1); 
else 


if (zframe size (sender) >= 4 // 服务 名 称 为 保留 的 服务 


&&  memcmp (zframe data (sender), "mmi.' 


s worker delete (self, worker, 1); 
else ( 
// 将 Worker 对 应 到 服务 ， 并 置 为 空闲 状态 


mo 


zframe t *service frame - zmsg pop (msg); 
worker-»service = s service require (self, 


worker -»service-»workers--; 
S worker waiting (self, worker); 
zframe destroy (&service frame); 


9) 


service frar 


j 


else 
if (zframe streq (command, MDPW REPLY)) { 
if (worker ready) { 
// TRE clientii » d& A V BUS RR E dr H 
zframe t *client - zmsg unwrap (msg); 
zmsg pushstr (msg, worker-»service-»name); 
zmsg pushstr (msg, MDPC CLIENT); 
zmsg wrap (msg, client); 
zmsg send (&msg, self-»socket); 
S worker waiting (self, worker); 
} 
else 
s worker delete (self, worker, 1); 
} 
else 
if (zframe streq (command, MDPW HEARTBEAT)) { 
if (worker ready) 
worker-»-expiry = zclock time () + HEARTBEAT EXPIRY; 
else 
s worker delete (self, worker, 1); 
} 
else 
if (zframe streq (command, MDPW DISCONNECT)) 
s worker delete (self, worker, 0); 
else ( 
zclock log ("E: 非法 消息 ") ; 
zmsg dump (msg); 
} 
free (command); 
zmsg destroy (&msg); 


j 


// --------------------------------------------------------------， 
// 发 送 消息 给 worker 
// 如果 指针 指向 了 一 条 消息 ， 发 送 它 ， 但 不 销毁 它 ， 因 为 这 是 调用 者 的 工作 


static void 

s worker send (broker t *self, worker t *worker, char *command, 
char *option, zmsg t *msg) 

{ 


msg = msg? zmsg dup (msg): zmsg new (); 


// 将 协议 信封 压 入 消息 顶部 
if (option) 

zmsg pushstr (msg, option); 
zmsg pushstr (msg, command); 
zmsg pushstr (msg, MDPW WORKER); 


// ”在 消息 顶部 插入 路 由 帧 
zmsg wrap (msg, zframe dup (worker-»address)); 


<] — 


if (self-»verbose) ( 
zclock log ("I: 正在 发 送 消息 给 Worker 9s", 
mdps commands [(int) *command]); 
zmsg dump (msg); 
} 


zmsg send (&msg, self-»socket); 


A PT A" 
// 正在 等 待 的 worker 


static void 

s worker waiting (broker t *self, worker t *worker) 

{ 
// ”将 worker 加 入 代理 和 服务 的 等 待 队列 
zlist append (self->waiting, worker); 
zlist append (worker-»service-»waiting, worker); 
worker-»expiry = zclock time () + HEARTBEAT EXPIRY; 
S service dispatch (self, worker-»service, NULL); 


j 


ap cec E 
// ”处 理 client 发 来 的 请 求 


static void 
S client process (broker t *self, zframe t *sender, zmsg t *msg) 


{ 


assert (zmsg_size (msg) >= 2); // ”服务 名 称 + 请 求 内 容 


zframe t *service frame = zmsg pop (msg); 
service t *service - s service require (self, service frame); 


// 为 应 答 内 容 设置 请 求 方 的 地 址 

zmsg wrap (msg, zframe dup (sender)); 

if (zframe size (service frame) »- 4 

&&  memcmp (zframe data (service frame), "mmi.", 4) == 0) 
S service internal (self, service frame, msg); 

else 
S service dispatch (self, service, msg); 

zframe destroy (&service frame); 


j 





这 个 例子 应 该 是 我 们 见 过 最 复杂 的 一 个 示例 了 ， 大 约 有 500 行 代码 。 编 写 这 段 代码 
并 让 其 变 的 健壮 ， 大 约 花 费 了 两 天 的 时 间 。 但 是 ， 这 也 仅仅 是 一 个 完整 的 面向 服务 
代理 的 一 部 分 。 

几 点 说 明 : 


e 管家 模式 协议 要 求 我 们 在 一 个 套 接 字 中 同时 处 理 client 和 worker， 这 一 点 对 部 署 
和 管理 代理 很 有 益处 : 它 只 会 在 一 个 ZMQ 端 点 上 收发 请 求 ， 而 不 是 两 个 。 


e 代理 很 好 地 实现 了 MDP/0.1 协 议 中 规范 的 内 容 ， 包 括 当 代理 发 送 非 法 命令 和 心 
跳 时 断 开 的 机 制 。 


e 可 以 将 这 段 代 码 扩充 为 多 线程 ， 每 个 线程 管理 一 个 套 接 字 、 一 组 client 和 
ke es d ors 当中 显得 很 有 趣 。C 语 言 代 码 已 经 是 这 样 的 
格式 了 ， 因 此 很 容易 实现 。 


e 还 可 以 将 这 段 代码 扩充 为 主 备 模式 、 双 在 线 模式 ， 进 一 步 提高 可 靠 性 。 因 为 从 
1 s ou erem nd 
Worker 可 以 自行 选择 除 此 之 外 的 代理 来 进 5 


e 示例 代码 中 心跳 的 间隔 为 5 秒 ， 主 要 是 为 了 减少 调试 时 的 输出 。 现 实 中 的 值 应 
该 设 得 低 一 些 ， 但 是 ， 重 试 的 过 程 应 该 设置 得 稍 长 一 些 ， 让 服务 有 足够 的 时 间 
启动 ， 如 10 秒 钟 。 


异步 管家 模式 


上 文 那 种 实现 管家 模式 的 方法 比较 简单 ，client 还 是 简单 海盗 模式 中 的 ， 仅 仅 是 用 
APl 重 写 了 一 下 。 我 在 测试 机 上 运行 了 程序 ， 处 理 10 万 条 请 求 大 约 需 要 14 秒 的 时 

间 ， 这 和 代码 也 有 一 些 关 系 ， 因 为 复制 消息 帧 的 时 间 浪费 了 CPU 处 理 时 间 。 ja A E. 
的 问题 在 于 ， 我 们 总 是 逐个 循环 进行 处 理 (round-trip) ， 即 发 送 -接收 -发 送 - 接 

收 ......ZMQ 内 部 禁用 了 TCP 发 包 优 化 算法 (Nagle's algorithm) ， 但 和 逐个 处 理 循环 
还 是 比较 浪费 。 


理论 归 理 论 ， 还 是 需要 由 实践 来 检验 。 我 们 用 一 个 简单 的 测试 程序 来 看 看 逐个 处 理 
循环 是 否 站 的 耗 时 。 这 个 测试 程序 会 发 送 一 组 消息 ， 第 一 次 它 发 一 条 收 一 条 ， 第 二 
次 则 一 起 发 送 关 再 一 起 接收 。 两 次 结果 应 该 是 一 样 的 ， 48 iR 速度 截然 不 同 同 o 


tripping: Round-trip demonstrator in C 


// Round-trip 模拟 
// ”本 示例 程序 使 用 多 线程 的 方式 启动 ` worker ` RARE >» 


// 当 Client 处 理 完毕 了 Zr A if 





Zinclude "czmq.h" 


static void 

client task (vord *args, zctx i ^cix, voxd Pipe) 

{ 
void *client = zsocket new (ctx, ZMQ DEALER); 
zmq setsockopt (client, ZMQ IDENTITY, "C", 1); 
zsocket connect (client, "tcp://localhost:5555"); 


printf ("spe ns 
zclock sleep (1009); 


int requests; 
int64 t start; 


j 


printf ("MF round-trip J3IX...Nn"); 
start - zclock time (); 
for (requests = 0; requests < 10000; requests--*) ( 
zstr send (client, "hello"); 
char *reply - zstr recv (client); 
free (reply); 
} 
[ne /Nn 
(1000 * 10000) / (int) (zclock time () - start)); 


printf ("#7 round-trip J3EX...Nn"); 
start - zclock time (); 
for (requests = 0; requests < 100000; requests--) 
zstr send (client, "hello"); 
for (requests = 0; requests < 100000; requests--*) ( 
char *reply - zstr recv (client); 
free (reply); 
} 
printf ('" Xd ey Nn 
(1000 * 100000) / (int) (zclock time () - start)); 


zstr send (pipe, "X X"); 


static Vond 
worker_task (void *args) 


{ 


} 


zctx_t *ctx = zctx_new (); 

void *worker = zsocket new (ctx, ZMQ DEALER); 

zmq setsockopt (worker, ZMQ IDENTITY, "Ww", 1); 
zsocket connect (worker, "tcp://localhost:5556"); 


while (1) { 
zmsg t *msg - zmsg recv (worker); 
zmsg send (&msg, worker); 

} 

zctx destroy (&ctx); 

return NULL; 


Statu vouxdo* 
broker task (void *args) 


{ 


// ”准备 上 下 文 和 套 接 字 

zctx_t *ctx = zctx new (); 

void *frontend - zsocket new (ctx, ZMQ ROUTER); 
void *backend - zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (frontend, "tcp://*:5555"); 
zsocket bind (backend,  "tcp://*:5556"); 


// 初始 化 轮 询 对 象 
zmq pollitem t items [] = ( 
{ frontend, ©, ZMQ POLLIN, 9 Jj, 


{ backend, ©, ZMQ POLLIN, 9 } 


}; 
while (1) { 
int rc = zmq_poll (items, 2, -1); 
TAF (r 三 三 -1) 
break; // 中断 


if (items [60].revents & ZMQ POLLIN) ( 
zmsg t *msg - zmsg recv (frontend); 
zframe t *address - zmsg pop (msg); 
zframe destroy (&address); 
zmsg pushstr (msg, "w"); 
zmsg send (&msg, backend); 


if (items [i].revents & ZMQ POLLIN) { 
zmsg t *msg - zmsg recv (backend); 
zframe t *address - zmsg pop (msg); 
zframe destroy (&address); 
zmsg pushstr (msg, "'"C"); 
zmsg send (&msg, frontend); 


j 


zctx destroy (&ctx); 
return NULL; 


} 

int main (void) 

{ 
J 创建 线程 
ZGLX t *ctx - zctx new (); 
void *client - zthread fork (ctx, client task, 
zthread new (ctx, worker task, NULL); 
zthread new (ctx, broker task, NULL); 
// 等 待 cLient 端 管道 的 信 
char *signal = zstr recv (client); 
free (signal); 
zctx destroy (&ctx); 
returno, 

} 


在 我 的 开发 环境 中 运行 结果 如 下 : 


Setting up test... 

Synchronous round-trip test... 
9057 calls/second 

Asynchronous round-trip test... 
173010 calls/second 


NULL); 


需要 注意 的 是 client 在 运行 开始 会 暂停 一 段 时 间 ， 这 是 因为 在 向 ROUTER 套 接 字 发 
送 消息 时 ， 若 指定 标识 的 套 接 字 没有 连接 ， 那 么 ROUTER 会 直接 丢弃 该 消息 。 这 个 
示例 中 我 们 没有 使 用 LRU 算 法 ， 所 以 当 worker 连 接 速 度 稍 慢 时 就 有 可 能 丢失 数据 ， 
影响 测试 结果 。 


我 们 可 以 看 到 ， 和 逐个 处 理 循 环比 异步 处 理 要 慢 将 近 20 倍 ， 让 我 们 把 它 应 用 到 管家 模 
APA 


首先 ， 让 我 们 修改 client 的 API， 添 加 独立 的 发 送 和 接收 方法 : 


mdcli t *mdcli new (char *broker); 

void mdcli destroy (mdcli t **self p); 

int mdcli send (mdcli t *self, char *service, zmsg t **reqgi 
zmsg t *mdcli recv (mdcli t *self); 


然后 花 很 短 的 时 间 就 能 将 同步 的 client API 改 造成 异步 的 API : 





mdcliapi2: Majordomo asynchronous client API in C 


9 CELLULE EL 
mdcliapi2.c 
Majordomo Protocol Client API (async version) 
Implements the MDP/Worker spec at http://rfc.zeromq.org/spec:7 
Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 
This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 
This is free software; you can redistribute it and/or modify i! 
the terms of the GNU Lesser General Public License as publishet 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 
This software is distributed in the hope that it will be usefu- 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the G! 
Lesser General Public License for more details. 
You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http://www.gnu.org/licenses/». 

ip PE 
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// ”使 用 成 员 骂 数 访问 属性 


struct mdcli t ( 


ACE CX SES 
char *broker; 
void *client; // 连接 至 代理 的 套 接 字 
int verbose; // ”在 标准 输出 打印 运行 状态 
int timeout; // 请 求 超时 时 间 
J; 
JA EEUU 


// 连接 或 重 连 代理 


void s mdcli connect to broker (mdcli t *self) 


{ 
if (self->client) 
zsocket destroy (self->ctx, self->client); 
self->client = zsocket new (self->ctx, ZMQ DEALER); 
zmq connect (self-»client, self-»broker); 
if (self-»verbose) 
zclock log ("I: 正在 连接 代理 %s...", self-»broker); 
} 
// -------------- 
// ”构造 函数 
ndcluse es 
mdcli new (char *broker, int verbose) 
{ 


assert (broker); 


mdcli t *self = (mdcli t *) zmalloc (sizeof (mdcli t)); 
self-»ctx = zctx new (); 

self-»-broker = strdup (broker); 

self-»verbose = verbose; 

self-»-timeout = 2500; //  &á 
s mdcli connect to broker (self); 
return self; 


SR 
// MB 


void 
mdcli destroy (mdcli t **self p) 
i 
assert (self p); 
if (*self p) ( 
mdcli t *self - *self p; 


ZMQ 指南 


zctx destroy (&self-»ctx); 
free (self-»broker); 

free (self); 

*self p - NULL; 


} 
} 
// -------------- 
// 设置 请 求 超时 时 间 
void 
mdcli set timeout (mdcli t *self, int timeout) 
{ 


assert (self); 
self->timeout = timeout; 


DY 
// ”发 送 请 求 给 代理 
// 取得 请 求 消息 的 所 有 权 ， 发 送 后 销毁 


TME 
mdcli_send (mdcli_t *self, char *service, zmsg_t **request_p) 
{ 

assert (self); 

assert (request_p); 

zmsg_t *request = *request_p; 


// 在 消息 顶部 加 入 协议 规定 的 帧 

// Frame 0: empty (模拟 REQ 套 接 字 的 行为 ) 

// Frame 1: "MDPCxy" (6^ $$, MDP/Client x.y) 

// Frame 2: Service name (看 打印 字符 串 ) 

zmsg pushstr (request, service); 

zmsg pushstr (request, MDPC CLIENT); 

zmsg pushstr (request, '""); 

if (self-»verbose) ( 
zclock_log ("I: 发 送 请 求 给 '%s' Hoa" service); 
zmsg dump (request); 


J 
zmsg send (&request, self-»client); 
[eese Ty- (9)P 
} 
// ----------------------------- 


的 请 求 ， 所 以 也 无 法 重 发 。 


Zio 
mdcli recv (mdcli t *self) 





assert (self); 


//. 轮 询 套 接 字 以 获取 应 答 
zmq pollitem t items [] = ( { self->client, ©, ZMQ POLLIN, © } 
int rc = zmq poll (items, i, self-»-timeout * ZMQ POLL MSEC); 
ii (re = =) 

return NULL; // 中 断 


// 收 到 应 答 后 进行 处 理 
if (items [0].revents & ZMQ POLLIN) ( 
zmsg t *msg - zmsg recv (self-»client); 
if (self-»verbose) ( 
zclock log ("I: received reply:"); 
zmsg dump (msg); 
7 不 要 处 理 错误 ， 直 接 报 出 
assert (zmsg size (msg) >= 4); 


zframe t *empty - zmsg pop (msg); 
assert (zframe streq (empty, "")); 
zframe destroy (&empty); 


zframe t *header - zmsg pop (msg); 
assert (zframe streq (header, MDPC CLIENT)); 
zframe destroy (&header); 


zframe t *service - zmsg pop (msg); 
zframe destroy (&service); 


return msg; // Success 
} 
if (zctx_interrupted) 
printf ("W: 收 到 中 断 消息 ， 正 在 中 止 client...\n"); 
else 
if (self->verbose) 
zclock log ("W: FERA’ WAHR"); 


return NULL; 





下 面 是 对 应 的 测试 代码 : 


mdclient2: Majordomo client application in C 


// 

// 异步 管家 模式 - client 示 例 程序 

// ”使 用 mdcli API 隐 藏 MDP 协 议 的 具体 实现 
// 

// 直接 编译 源码 ， 而 不 创建 类 库 
Zinclude "mdcliapi2.c" 


int main (int argc, char *argv []) 


1 

int verbose - (argc » 1 && streq (argv [1], "-v")); 
mdcli t *session - mdcli new ("tcp://localhost:5555", verbose), 
int count; 
for (count = 0; count < 100000; count++) ( 

zmsg t *request - zmsg new (); 

zmsg pushstr (request, "Hello world"); 

mdcli send (session, "echo", &request); 
} 
for (count = 0; count < 100000; count++) ( 

zmsg t *reply - mdcli recv (session); 

if (reply) 

zmsg destroy (&reply); 
else 
break; // 使 用 Ctrl1L-C 中 断 
} 
printf (" 收 到 9d 个 应 答 \n"，count); 
mdcli destroy (&session); 
return 0; 
} 


Aoo ëO 
代理 和 worker 的 代码 没有 变 ， 因 为 我 们 并 没有 改变 MDP 协 议 。 经 过 对 client 的 改 
造 ， 我 们 可 以 明显 看 到 速度 的 提升 。 如 以 下 是 同步 状况 下 处 理 10 万 条 请 求 的 时 间 : 


$ time mdclient 
100000 requests/replies processed 


real 0m14. 088s 


user gm1.310s 
sys 0m2. 670s 


以 下 是 异步 请 求 的 情况 : 


$ time mdclient2 
100000 replies received 


real Om8 .730s 
User 9mo.920s 
Sys Omi1.550s 


让 我 们 建立 10 个 worker， 看 看 效果 如 何 : 


$ time mdclient2 
100000 replies received 


real Om3 .863s 
user Qmo.730s 
Sys 0mo.470s 


由 于 worker 获 得 消息 需要 通过 LRU 队 列 机 制 ， 所 以 并 不 能 做 到 完全 的 异步 。 但 是 ， 
worker 越 多 其 效果 也 会 越 好 。 在 我 的 测试 机 上 ， 当 worker 的 数量 达到 8 个 时 ， 速 度 
就 不 再 提升 了 四 核 处 理 器 只 能 做 这 么 多 。 但 是 ， 我 们 仍然 获得 了 近 四 倍 的 速度 
提升 ， 而 改造 过 程 只 有 几 分 钟 而 已 。 此 外 ， 代 理 其 实 还 没有 进行 优化 ， 它 仍 会 复制 
消息 ， 而 没有 实现 零 找 贝 。 不 过 ， 我 们 已 经 做 到 每 秒 处 理 2.5 万 次 请 求 -应 答 ， 已 经 
很 不 错 了 。 


当然 ， 蜡 步 的 管家 模式 也 并 不 完美 ， 有 一 个 显著 的 缺点 : 它 无 法 从 代理 的 前 溃 中 恢 
复 。 可 以 看 到 mdcliapi2 的 代码 中 并 没有 恢复 连接 的 代码 ， 重 新 连接 需要 有 以 下 几 点 
作为 前 提 : 


e 每 个 请 求 都 做 了 编号 ， 每 次 应 答 也 含有 相应 的 编号 ， 这 就 需要 修改 协议 ， 明 确 
€ 3; 

e client 的 API 需 要 保留 并 跟踪 所 有 已 发 送 、 但 仍 未 收 到 应 答 的 请 求 ; 

e 如 果 代 理发 生 崩 溃 ，client 会 重 发 所 有 消息 。 


可 以 看 到 ， 高 可 靠 性 往往 和 复杂 度 成 正比 ， 值 得 在 管家 模式 中 应 用 这 一 机 制 吗 ? 这 
就 要 看 应 用 场景 了 。 如 果 是 一 个 名 称 查询 服务 ， 每 次 会 话 会 调用 一 次 ， 那 不 需要 应 
用 这 一 机 制 ; 如 果 是 一 个 位 于 前 端的 网 页 服务 ， 有 数 千 个 客户 端 相连 ， 那 可 能 就 需 
要 了 。 





服务 查询 


现在 ， 我 们 已 经 有 了 一 个 面向 服务 的 代理 了 ， 但 是 我 们 无 法 得 知 代理 是 否 提供 了 某 
项 特定 服务 。 如 果 请 求 失败 ， 那 当然 就 表示 该 项 服务 目前 不 可 用 ， 但 具体 原因 是 什 
么 呢 ?3 所以， 如 果 能 够 询问 代理 “echo 服 务 正在 运行 吗 ?”， 那 将 会 很 有 用 处 。 最 明 
显 的 方法 是 在 MDP/Client 协 议 中 添加 一 种 命令 ， 客 户 端 可 以 询问 代理 某 项 服务 是 否 
可 用 。 但 是 ，MDP/Client 最 大 的 优点 在 于 简单 ， 如 果 添 加 了 服务 查询 的 功能 就 太 过 
复杂 了 。 


另 一 种 方案 是 学 电子 邮件 的 处 理 方式 ， 将 失败 的 请 求 重 新 返回 。 但 是 这 同样 会 增加 
复杂 度 ， 因 为 我 们 需要 鉴别 收 到 的 消息 是 一 个 应 答 还 是 被 退回 的 请 求 。 


让 我 们 用 之 前 的 方式 ， 在 MDP 的 基础 上 建立 新 的 机 制 ， 而 不 是 改变 它 。 服 务 定位 本 
身 也 是 一 项 服务 ， 我 们 还 可 以 提供 类 似 于 “禁用 某 服 务 "、“ 提 供 服 务 数据 "等 其 他 服 
务 。 我 们 需要 的 是 一 个 能 够 扩展 协议 但 又 不 会 影响 协议 本 身 的 机 制 。 


这 样 就 诞生 了 一 个 小 巧 的 RFC -MMI (管家 接口 ) 的 应 用 层 ， 建 立 在 MDP 协 议 之 
二 o 我们 在 代理 中 其 实 已 经 加 以 实现 了 ， 不 知 你 是 
否 已 经 注意 到 。 下 面 的 代码 演示 了 如 何 使 用 这 项 服务 查询 功能 


mmiecho: Service discovery over Majordomo in C 


| 
// MMI echo 服务 查询 示例 程序 
Jn 


"2 让 我 们 直 接 编 译 ， 不 生成 类 库 库 
Zinclude "mdcliapi.c" 


azntomaudnecbutodrgc,; chars arqv- Ti) 


{ 
int verbose = (argc > 1 && streq (argv [1], "-v")); 
mdcli t *session - mdcli new ("tcp://localhost:5555", verbose), 
// 我 们 需要 查询 的 服务 名 称 
zmsg t *request = zmsg new (); 
zmsg addstr (request, "echo"); 
// ”发 送 给 “服务 查询 ”服务 的 消息 
zmsg t *reply = mdcli send (session, "mmi.service", &request); 
if (reply) { 
char *reply code - zframe strdup (zmsg first (reply)); 
printf ("查询 echo 服务 的 结果 : %s\n", reply code); 
free (reply code); 
zmsg destroy (&reply); 
} 
else 
printf ("E: 代理 无 响应 ， 请 确认 它 正在 工作 \n"); 
mdcli destroy (&session); 
retuli me, 
} 


加 LL BE ^| 


代理 在 运行 时 会 检查 请 求 的 服务 名 称 ， 自 行 处 理 那 些 mmi. 开 头 的 服务 ， 而 不 转发 给 
worker。 你 可 以 在 不 开启 Worker 的 情况 下 运行 以 上 代码 ， 可 以 看 到 程序 是 报告 200 
还 是 404。MMI 在 示例 程序 代理 中 的 实现 是 很 简单 的 ， 比 如 ， 当 某 个 worker 消 亡 

时 ， 该 服务 仍然 标记 为 可 用 。 实 践 中 ， 代 理应 该 在 一 定 间 隔 后 清除 那些 没有 worker 
的 服务 。 


X RR 

Tr Id8 üegbuc4l* A ATERN o d o EA IAEA o MARAA E a 
TOt AERP REMAR AEF [REGENT . GS g n 
有 : 


e 无 状态 的 任务 分 配 ， 即 管道 模式 中 服务 端 是 无 状态 的 worker， 它 的 处 理 结果 是 
根据 客户 端的 请 求 状态 生成 的 ， 因 此 可 以 重复 处 理 相同 的 请 求 ; 

e 命名 服务 中 将 逻辑 地 址 转化 成 实际 绑 定 或 连接 的 端点 ， 可 以 重复 查询 多 次 ， 因 
Jta A E A o 


JE e F GR PDA : 


e 日 志 服 务 ， 我 们 不 会 希望 相同 的 日 志 内 容 被 记录 多 次 ; 

e 任何 会 对 下 游 节 点 有 影响 的 服务 ， 如 该 服务 会 向 下 游 节点 发 送信 息 ， 若 收 到 相 
同 的 请 求 ， 那 下 游 节 点 收 到 的 信息 就 是 重复 的 ; 

e 当 服 务 修 改 了 某 些 共享 的 数据 ， 且 没有 进行 需 等 方面 的 设置 。 如 某 项 服务 对 银 
行 账户 进行 了 借 操作 (debit) » 3: — zx E 3E AE RJ 


Ade KE] EH RA 5 IR. AC JERSEY] ^ ÜB3LE 37 ECC UG SL 0C dE TIRAS HEC DEO o 
如 果 程 序 在 空闲 或 处 理 请 求 的 过 程 中 崩溃 ， 那 不 会 有 什么 问题 。 我 们 可 以 使 用 数据 
库 中 的 事务 机 制 来 保证 借贷 操作 是 同时 发 生 的 。 如 果 应 用 程序 在 发 送 请 求 的 时 候 崩 
省 了 ， 那 就 会 有 问题 ， 因 为 对 于 该 程序 来 说 ， 它 已 经 完成 了 工作 。 


如 果 在 返回 应 答 的 过 程 中 网 络 阻塞 了 ， 客 户 端 会 认为 请 求 发 送 失败 ， 并 进行 重 发 ， 
这 样 服务 端 会 再 一 次 执行 相同 的 请 求 。 这 不 是 我 们 想 要 的 结果 。 


常用 的 解决 方法 是 在 服务 端 检 测 并 拒绝 重复 的 请 求 ， 这 就 需要 : 


e 客户 端 为 每 个 请 求 加 注 唯一 的 标识 ， 包 括 客户 端 标 识 和 消息 标识 ; 

e 服务 端 在 发 送 应 答 时 使 用 客户 端 标 识 和 消息 标识 作为 键 ， 保 存 应 答 内 容 ; 

e 当 服 务 端 发 现 收 到 的 请 求 已 在 应 答 哈 希 表 中 存在 ， 它 会 跳 过 该 次 请 求 ， 直 接 返 
回应 答 内 容 。 


脱 机 可 人 靠 性 (巨人 模式 ) 


想 要 使 用 磁盘 做 一 下 


当 你 意识 到 管家 模式 是 一 种 非常 可 靠 的 消息 代理 时 ， 你 可 7 
级 消息 系统 中 应 用 ， 


2h 

HO 
消息 中 转 ， 从 而 进一步 提升 可 靠 性 。 这 种 方式 虽然 在 很 多 企 
但 我 还 是 有 些 反 对 的 ， 原 因 有 : 


e 我 们 可 以 看 到 ， 懒 惰 海 资 模式 的 client 可 以 工作 得 非常 好 ， 能 够 在 多 种 架构 中 运 
行 。 唯 一 的 问题 是 它 会 假设 Worker 是 无 状态 的 ， 且 提供 的 服务 是 短 等 的 。 但 这 
个 问题 我 们 可 以 通过 其 他 方式 解决 ， 而 不 是 添加 磁盘 。 

e 添加 磁盘 会 带 来 新 的 问题 ， 需 要 额外 的 管理 和 维护 费用 。 海 咨 模 式 的 最 大 优点 
就 是 简单 明了 ， 不 会 崩溃 。 如 果 你 还 是 担心 硬件 会 出 问题 ， 可 以 改 用 点 对 点 的 
通信 模式 ， 这 会 在 本 章 最 后 一 节 讲 到 。 


会 
JL. 





虽然 有 以 上 原因 ， 但 还 是 有 一 个 合理 的 场景 可 以 用 到 而 
络 。 海 盗 模 式 有 一 个 问题 ， 那 就 是 client 发 送 请 求 后 会 一 直 等 待 应 答 。 如 果 client 和 
Worker 并 不 是 长 连接 (可 以 拿 电子 邮箱 做 个 类 比 ) ， 我 们 就 无 法 在 client 和 worker 之 
间 建 立 一 个 无 状态 的 网 络 ， 因 此 需要 将 这 种 状态 保存 起 来 。 
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进行 服务 查询 时 ， 会 转向 巨人 这 一 层 进行 。 巨 人 是 建立 在 管 家 之 上 的 ， 而 不 是 改写 

Md 。 这 样 做 的 好 处 是 我 们 可 以 在 一 个 特定 的 worker 中 实现 这 种 可 靠 性 ， 而 
用 去 增加 代理 的 逻辑 。 


e 实现 更 为 简单 ; 
o 代理 用 一 种 语言 编写 ，Worker 使 用 另 一 种 语言 编写 ; 
o 可 以 自由 升级 这 种 模式 。 


唯一 的 缺点 是 ， 代 理 和 磁盘 之 间 会 有 一 层 额外 的 联系 ， 不 过 这 也 是 值得 的 。 


STIR S 方法 来 实现 一 种 持久 化 的 请 求 -应 答 架 构 ， 而 目标 当然 是 越 简单 越 好 。 我 
能 想到 的 最 简 单 的 方式 是 提供 一 种 成 为 "巨人 "的 代理 服务 ， 它 不 会 影响 现 有 worker 
的 工作 , 2 coc 到 应 答 ， 它 可 以 和 代理 进行 通信 ; 如 果 它 不 是 那么 着 
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Figure 5 一 Titanic Pattern 
这 样 一 来 ， 巨 人 就 既是 worker 又 是 client 。client 和 巨人 之 间 的 对 话 一 般 是 
e Client: 33 4j 我 处 理 这 个 请 求 。 巨 人 :好 的 。 
© Client. 有 要 给 合 我 的 应 答 吗 ?了 巨人: 有 的 。 (或 者 没有 ) 
e Client: OK， 你 可 以 释放 那个 请 求 了 ， 工 作 已 经 完成 。 巨 人 : 好 的 。 


巨人 和 代理 之 间 的 对 话 一 般 是 


e EA Uo ANSA ER Mix X 4 echot)IR 4-*E ? 代理 : o 好像 有 。 
e EA: 9l » echo/lR 2p > i dB AA EE — TF 3X Ad R ° Echo: 好 了 ， 这 是 应 答 。 
e 巨人 :谢谢 ! 


你 可 以 想象 一 些 发 生 故 障 的 情形 ， 看 看 上 述 模式 是 否 能 解决 ? worker 在 处 理 请 求 的 
时 候 崩 溃 ， 巨 人 会 不 断 地 重新 发 送 请 求 ; 应 答 在 传输 过 程 中 丢失 了 ， 巨 人 也 会 重 
试 ; 如 果 请 求 已 经 处 理 ， 但 client 没 有 得 到 应 答 ， 那 它 会 再 次 询问 巨人 ; 如 果 巨 人 在 
处 理 请 求 或 进行 应 答 的 时 候 崩 溃 了 ， 客 户 端 会 进行 重 试 ; 只 要 请 求 是 被 保存 在 磁盘 
上 的 ， 那 它 就 不 会 丢失 。 


这 个 机 制 中 ， 握 手 的 过 程 是 比较 漫长 的 ， 但 client 可 以 使 用 异步 的 管家 模式 ， 一 次 发 
送 多 个 请 求 ， 并 一 起 等 待 应 答 。 


我 们 需要 一 种 方法 ， 让 client 会 去 请 求 应 答 内 容 。 不 同 的 client 会 访问 到 相同 的 服 
务 ， 且 client 是 来 去 自由 的 ， 有 着 不 同 的 标识 。 一 个 简单 、 人 合理、 安全 的 解决 方案 
Æ: 


e 当 巨 人 收 到 请 求 时 ， 它 会 为 每 个 请 求生 成 唯一 的 编号 (UUID) ， 并 将 这 个 编 
号 返回 给 client ; 
e client 在 请 求 应 答 内 容 时 需要 提供 这 个 编号 。 


这 样 一 来 client 就 需要 负责 将 UUID 安 全 地 保存 起 来 ， 不 过 这 就 省 去 了 验证 的 过 程 。 
有 其 他 方案 吗 ? 我 们 可 以 使 用 持久 化 的 套 接 字 ， 即 显 式 声明 客户 端的 套 接 字 标 识 。 
然而 ， 这 会 造成 管理 上 的 麻烦 ， 而 且 万 一 两 个 client 的 套 接 字 标 识 相 同 ， 那 会 引 来 无 
穷 的 麻烦 。 


在 我 们 开始 制定 一 个 新 的 协议 之 前 ， 我 们 先 思 考 一 下 client 如 何 和 巨人 通信 。 一 种 方 
案 是 提供 一 种 服务 ， 配 合 三 个 不 同 的 命令 ; 另 一 种 方案 则 更 为 简单 ， 提 供 三 种 独立 
的 服务 : 


e titanic.request - 保存 一 个 请 求 ， 并 返回 UUID 

e titanic.reply - 根据 UUID 获 取 应 答 内 容 

e titanic.close - 确认 茶 个 请 求 已 被 正确 地 处 理 
我 们 需要 创建 一 个 多 线程 的 worker， 正 如 我 们 之 前 用 ZMQ 进 行 多 线程 编程 一 样 ， 很 
简单 。 但 是 ， 在 我 们 开始 编写 代码 之 前 ， 先 讲 巨 人 模式 的 一 些 定义 写 下 
来 : http://rfc.zeromq.org/spec:9 。 我 们 称 之 为 “巨人 服务 协议 ”， 或 TSP ° 


使 用 TSP 协 议 自然 会 让 client 多 出 额外 的 工作 ， 下 面 是 一 个 简单 但 足够 健壮 的 
client : 


ticlient: Titanic client example in C 


巨人 模式 CLient 示 例 
实现 http://rfc.zeromq.org/spec:9 WRA P client 





/ t 
#include "mdcliapi.c" 
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// 请求 TSP 协 议 下 的 服务 


// ”如 果 成 功 则 返回 应 答 (RAA : 200) ， 和 否则 返回 NULL 
// 
static zmsg t * 
s service call (mdcli t *session, char *service, zmsg t **request [ 
{ 
zmsg t *reply = mdcli send (session, service, request p); 
if (reply) { 
zframe t *status - zmsg pop (reply); 
if (zframe streq (status, "200")) ( 
zframe destroy (&status); 
return reply; 
} 
else 
if (zframe streq (status, "400")) ( 
printf ("E: 客户 端 发 生 严 重 错 误 ， 取 消 请 求 \n"); 
exit (EXIT_FAILURE); 
} 
else 
if (zframe streq (status, "500")) ( 
printf ("E: 服务 端 发 生 严重 错误 ， 取 消 请 求 \n" ) ， 
exit (EXIT. FAILURE); 
} 
} 
else 
exit (EXIT. SUCCESS); // ”中 断 或 发 生 错 误 


zmsg_destroy (&reply); 
return NULL; // ”请 求 不 成 功 ， 但 不 返回 失败 原因 


int main (int argc, char *argv []) 


int verbose - (argc » 1 && streq (argv [1], "-v")); 
mdcli t *session - mdcli new ("tcp://localhost:5555", verbose), 


// 1， 发 送 echo 服 务 的 请 求 给 巨人 
zmsg t *request = zmsg new (); 
zmsg addstr (request, "echo"); 
zmsg addstr (request, "Hello world"); 
zmsg t *reply - s service call ( 
session, "titanic.request", &request); 


zframe t *uuid - NULL; 
if (reply) { 
uuid - zmsg pop (reply); 
zmsg destroy (&reply); 
zframe print (uuid, "I: request UUID "); 


j 


// 2. 等 待 应 答 

while (!zctx interrupted) ( 
zclock sleep (100); 
request - zmsg new (); 


zmsg add (request, zframe dup (uuid)); 
zmsg t *reply - s service call ( 
session, "titanic.reply", &request); 


if (reply) { 
char *reply string - zframe strdup (zmsg last (reply)), 
printf ("Reply: %s\n", reply string); 
free (reply string); 
zmsg destroy (&reply); 


request - zmsg new (); 

zmsg add (request, zframe dup (uuid)); 

reply = s service call (session, "titanic.close", &reqgi 
zmsg destroy (&reply); 


break; 

} 

else ( 
printf ("I: 尚未 收 到 应 答 ， 准 备 稍 后 重 试 .,.Nn" ) 
zclock sleep (5900); // ”5 秒 后 重 试 

} 


} 

zframe destroy (&uuid); 
mdcli destroy (&session); 
return 0; 





当然 ， 上 面 的 代码 可 以 整合 到 一 个 框架 中 ， 程 序 员 不 需要 了 解 其 中 的 细节 。 如 果 我 
有 时 间 的 话 ， 我 会 尝试 写 一 个 这 样 的 API 的 ， 让 应 用 程序 又 变 回 短 短 的 几 行 。 这 种 
理念 和 MDP 中 的 一 致 : 不 要 做 重复 的 事 。 


下 面 是 巨人 的 实现 。 这 个 服务 端 会 使 用 三 个 线程 来 处 理 三 种 服务 。 它 使 用 最 原始 的 
持久 化 方法 来 保存 请 求 : 为 每 个 请 求 创建 一 个 磁盘 文件 。 虽 然 简 单 ， 但 也 挺 恐 怖 
的 。 比 较 复 杂 的 部 分 是 ， 巨 人 会 维护 一 个 队列 来 保存 这 些 请 求 ， 从 而 避免 重复 地 扫 
描 目 录 。 


titanic: Titanic broker example in C 


// 
// 巨人 模式 - 服务 
// 


// 实现 http://rfc.zeromq.org/spec:9 协议 的 服务 端 


// ”让 我 们 直接 编译 ， 不 创建 类 库 
Zinclude "mdwrkapi.c" 
Zinclude "mdcliapi.c" 


Zinclude "zfile.h" 
Zinclude «uuid/uuid.h» 


// 返回 一 个 可 打印 的 唯一 编号 (UUID) 
// 调用 者 负责 释放 UUID 字 符 串 的 内 存 


static char * 
s_generate uuid (void) 


{ 
char hex char [] = "0123456789ABCDEF"; 
char *uuidstr - zmalloc (sizeof (uuid t) * 2 * 1); 
uuid t uuid; 
uuid generate (uuid); 
int byte nbr; 
for (byte nbr = 0; byte nbr < sizeof (uuid t); byte nbr++) ( 
uuidstr [byte nbr * 2 + 0] = hex char [uuid [byte nbr] >> : 
uuidstr [byte nbr * 2 * 1] - hex char [uuid [byte nbr] & 1: 
} 
return uuidstr; 
j 


// 根据 UUID 生 成 用 于 保存 请 求 内容 的 文件 和 名， 并 返回 
Zdefine TITANIC DIR ".titanic" 


static char * 

s request filename (char *uuid) ( 
char *filename - malloc (256); 
snprintf (filename, 256, TITANIC DIR "/9s.req", uuid); 
return filename; 


} 
// 根据 UUID 生 成 用 于 保存 应 答 内 容 的 文件 名 ， 并 返回 


static char * 

s reply filename (char *uuid) { 
char *filename - malloc (256); 
snprintf (filename, 256, TITANIC DIR "/9s.rep", uuid); 
return filename; 


joue guai edi De HM More EI TIAE IE 
// ”巨人 模式 - 请 求 服务 


static void 
titanic request (void *args, zctx t *ctx, void *pipe) 
{ 
mdwrk_t *worker = mdwrk_new ( 
"tcp://localhost:5555", "titanic.request", 0); 
zmsg t *reply - NULL; 


while (TRUE) { 
// 若 应 答 非 空 则 发 送 ， 再 从 代理 处 获得 新 的 请 求 
zmsg t *request = mdwrk recv (worker, &reply); 
if (!request) 


break; // 中 断 并 退出 


// 确保 消息 目录 是 存在 的 
file mkdir (TITANIC DIR); 


// ”生成 UUID， 并 将 消息 保存 至 磁盘 

char *uuid = s generate uuid (); 

char *filename - s request filename (uuid); 
FILE *file - fopen (filename, "w"); 

assert (file); 

zmsg save (request, file); 

fclose (file); 

free (filename); 

zmsg destroy (&request); 


// 将 UUID 加 入 队列 

reply = zmsg new (); 

zmsg addstr (reply, uuid); 
zmsg send (&reply, pipe); 


// 将 UUID 返 回 给 客户 端 

// 将 由 循环 顶部 的 mdwrk_recv( ) 函数 完成 
reply = zmsg new (); 

zmsg addstr (reply, "200"); 

zmsg addstr (reply, uuid); 

free (uuid); 


mdwrk destroy (&worker); 


p P 
// EARR - 应 答 服务 


static void * 
titanic reply (void *context) 
{ 
mdwrk_t *worker = mdwrk_new ( 
"tcp://localhost:5555", "titanic.reply", 0); 
zmsg t *reply = NULL; 


while (TRUE) { 
zmsg t *request - mdwrk recv (worker, &reply); 
if (!request) 
break; // 中断 并 退出 


char *uuid = zmsg popstr (request); 
char *req filename - s request filename (uuid); 
char *rep filename - s reply filename (uuid); 
if (file exists (rep filename)) { 
FILE *file - fopen (rep filename, "r"); 
assert (file); 
reply - zmsg load (file); 


zmsg pushstr (reply, "200"); 
fclose (file); 


} 
else { 
reply = zmsg_new (); 
if (file_exists (req_filename)) 
zmsg pushstr (reply, "300"); // 挂 起 
else 
zmsg pushstr (reply, "400"); // 未 知 
} 


zmsg destroy (&request); 
free (uuid); 

free (req filename); 
free (rep filename); 


mdwrk destroy (&worker); 
return 0; 


Ji omni bados bo oasndooo naoga aonahaei 
// 巨人 模式 - 关闭 请 求 


static void * 
titanic close (void *context) 


{ 

mdwrk_t *worker = mdwrk_new ( 
"tcp://localhost:5555", "titanic.close", 0); 

zmsg t *reply = NULL; 

while (TRUE) ( 
zmsg t *request - mdwrk recv (worker, &reply); 
if (!request) 

break; // 中 断 并 退出 

char *uuid = zmsg popstr (request); 
char *req filename - s request filename (uuid); 
char *rep filename - s reply filename (uuid); 
file delete (req filename); 
file delete (rep filename); 
free (uuid); 
free (req filename); 
free (rep filename); 
zmsg destroy (&request); 
reply - zmsg new (); 
zmsg addstr (reply, "200"); 

mdwrk destroy (&worker); 

return 0; 

j 


// ”处 理 菜 个 请 求 ， 成 功 则 返回 1 


static int 
S service success (mdcli t *client, char *uuid) 
{ 
// ” 读 取 请 求 内 容 ， 第 一 帧 为 服务 名 称 
char *filename - s request filename (uuid); 
FILE *file = fopen (filename, "r"); 
free (filename); 


// ”如 果 client 已 经 关闭 了 该 请 求 ， 则 返回 1 
if (!file) 
return 1; 


zmsg t *request - zmsg load (file); 

fclose (file); 

zframe t *service - zmsg pop (request); 

char *service name - zframe strdup (service); 


// 使 用 MMI 协 议 检 查 服务 是 否 可 用 
zmsg t *mmi request = zmsg new () 
zmsg add (mmi request, service); 
zmsg t *mmi reply = mdcli send (client, "mmi.service", &mmi rec 
int service ok - (mmi reply 
&& zframe streq (zmsg first (mmi reply), "200")); 
zmsg destroy (&mmi reply); 


if (service ok) { 
zmsg t *reply - mdcli send (client, service name, &request: 
if (reply) { 
filename - s reply filename (uuid); 
FILE *file - fopen (filename, "w"); 
assert (file); 
zmsg save (reply, file); 
fclose (file); 
free (filename); 
return 1; 
} 
zmsg_destroy (&reply); 
} 
else 
zmsg destroy (&request); 


free (service name); 
return 0; 


int main (int argc, char *argv []) 


int verbose 
ZGUX Ct 


(argc » 1 && streq (argv [1], "-v")); 
zctx new (); 


// ”创建 MDP 客 户 端 会 话 


mdcli t *client - mdcli new ("tcp://localhost:5555", verbose); 
mdcli set timeout (client, 1000); // 1# 
mdcli set retries (client, 1); UNE IUE 


void *request pipe - zthread fork (ctx, titanic request, NULL), 
zthread new (ctx, titanic reply, NULL); 
zthread new (ctx, titanic close, NULL); 


// 主 循环 
while (TRUE) { 
// ”如 果 没 有 活动 ， 我 们 将 每 秒 循环 一 次 
zmq pollitem t items [] = ( ( request pipe, 0, ZMQ POLLIN, 
int rc - zmq poll (items, 1, 1000 * ZMQ POLL MSEC); 
if (rc == -1) 
break; // 中 断 
if (items [0].revents & ZMQ POLLIN) ( 
// 确保 消息 目录 是 存在 的 
file mkdir (TITANIC DIR); 


// ”将 UUID 添 加 到 队列 中 ， 使 用 “-” 号 标识 等 待 中 的 请 求 
zmsg t *msg = zmsg_recv (request pipe); 
if (!msg) 
break; LL SET 
FILE *file - fopen (TITANIC DIR "/queue", "a"); 
char *uuid - zmsg popstr (msg); 
fprintf (file, "-%s\n", uuid); 
fclose (file); 
free (uuid); 
zmsg_destroy (&msg); 


} 

// ”分 派 

// 

chia sert le EE er E tee EMEN c SEE jt 


FILE *file - fopen WESEMSDES DIR TEN DLE )) 
while (file && fread (entry, 33, 1, file) -- 1) { 
// ”处 理 UUID 前 级 为 4-” 的 请 求 
if (entry [0] == '-') { 
if (verbose) 
printf ("I: 开始 处 理 请 求 %s\n", entry + 1); 
if (s service success (client, entry + 1)) ( 
// 标记 为 已 处 理 
fseek (file, -33, SEEK CUR); 
fwrite ("+", 1, 1, file); 
fseek (file, 32, SEEK CUR); 


j 
//” 跳 过 最 后 一 行 
if (fgetc (file) == '\r') 


fgetc (file); 
if (zctx_interrupted) 
break; 


} 
if (file) 


fclose (file); 


mdcli destroy (&client); 
return 0; 








测试 时 ， 打 开 mdbroker 和 titanic， 再 运行 ticlient， 然 后 开启 任意 个 mdworker， 就 可 
以 看 到 client 获 得 了 应 答 。 


几 点 说 明 : 


e 我 们 使 用 MMI 协 议 去 向 代理 询问 某 项 服务 是 否 可 用 ， 这 一 点 和 MDP 中 的 逻辑 一 
致 ; 

e 我 们 使 用 inproc (进程 内 ) 协议 建立 主 循环 和 titanic.request 服 务 间 的 联系 ， 保 
存 新 的 请 求 信 息 。 这 样 可 以 避免 主 循环 不 断 扫描 磁盘 目录 ， 读 取 所 有 请 求 文 
件 ， 并 按照 时 间 日 期 排序 。 


这 个 示例 程序 不 应 关注 它 的 性 能 (一 定 会 非常 粮 糕 ， 虽 然 我 没有 测试 过 ) ， 而 是 应 
该 看 到 它 是 如 何 提 供 一 种 可 靠 的 通信 模式 的 。 你 可 以 测试 一 下 ， 打 开 代 理 、 巨 人、 
Worker 和 client， 使 用 -v 参 数 显 示 跟 踪 信 息 ， 然 后 随意 地 开关 代理 、 巨 人 、 或 
worker (client 不 能 关闭 ) ， 可 以 看 到 所 有 的 请 求 都 能 获得 应 答 。 


如 果 你 想 在 昌 实 环境 中 使 用 巨人 模式 ， 你 肯定 会 问 怎 样 才能 让 速度 快 起 来 。 以 下 是 
我 的 做 法 : 


o 使 用 一 个 磁盘 文件 保存 所 有 数据 。 操 作 系 统 处 理 大 文件 的 效率 要 比 处 理 许多 小 
文件 来 的 高 。 

e 使 用 一 种 循环 的 机 制 来 组 织 该 磁 瘟 文件 的 结构 ， 这 样 新 的 请 求 可 以 被 连续 地 写 
入 这 个 文件 。 单 个 线程 在 全 速写 入 磁盘 时 的 效率 是 比较 高 的 。 

e 将 索引 保存 在 内 存 中 ， 可 以 在 启动 程序 时 重建 这 个 索引 。 这 样 做 可 以 节省 磁盘 
缓存 ， 让 索引 安全 地 保存 在 磁盘 上 。 你 需要 用 到 fsSync 的 机 制 来 保存 每 一 条 数 
W ; 或 者 可 以 等 待 几 毫 秒 ， 如 果 不 怕 丢失 上 千 条 数据 的 话 。 

e 如 果 条 件 允许 ， 应 选择 使 用 固态 硬盘 ; 

e 提前 分 配 该 磁盘 文件 的 空间 ， 或 者 将 每 次 分 配 的 空间 调 大 一 些 ， 这 样 可 以 避免 
磁盘 碎片 的 产生 ， 并 保证 读 写 是 连续 的 。 


另外 ， 我 不 建议 将 消息 保存 在 数据 库 中 ， 其 至 不 建议 交 给 那些 所 谓 的 高 速 键 值 组 

存 ， 它 们 比 起 一 个 磁盘 文件 要 来 得 昂贵 。 

如 果 你 想 让 巨人 模式 变 得 更 为 可 靠 ， 你 可 以 将 请 求 复 制 到 另 一 台 服 务 器 上 ， 这 样 就 
不 需要 担心 主 程序 遵 到 核武 器 袭击 了 。 

如 果 你 想 让 巨人 模式 变 得 更 为 快速 ， 但 可 以 牺牲 一 些 可 靠 性 ， 那 你 可 以 将 请 求 和 应 
答 都 保存 在 内 存 中 。 这 样 做 可 以 让 该 服务 作为 脱 机 网 络 运行 ， 不 过 若 巨 人 服务 本 身 
崩溃 了 ， 我 也 无 能 为 力 。 


高 可 靠 对 称 节点 (双子 星 模式 ) 


概览 


双子 星 模式 是 一 对 具有 主 从 机 制 的 高 可 靠 节点 。 任 一 时 间 ， 茶 个 节点 会 充当 主机 ， 
接收 所 有 客户 端的 请 求 ; 另 一 个 则 作为 一 种 备 机 存在 。 两 个 节点 会 互相 监控 对 方 ， 
当主 机 从 网 络 中 消失 时 ， 备 机 会 替代 主机 的 位 置 。 


双子 星 模式 由 Pieter Hintjensfe Martin Sustrik 设 计 ， 应 用 在 iMatix 的 OpenAMQ 服 务 


器 中 。 它 的 设计 理念 是 : 


e 提供 一 种 简明 的 高 可 靠 性 解决 方案 ; 
e 易于 理解 和 使 用 ; 
e 能 够 进行 可 靠 的 故障 切换 。 
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Figure6 — —High availability pair, normal operation 


假设 我 们 有 一 组 双子 星 模式 的 服务 器 ， 以 下 是 可 能 发 生 的 故障 : 

1. 主机 发 生硬 件 故障 ( 断 电 、 失 火 等 )， 应 用 程序 发 送 后 立刻 使 用 备 机 进行 连 
接 ; 

2. 主机 的 网 络 环境 发 生 故 障 ， 可 能 某 个 路 由 器 被 雷击 了 ， 立 刻 使 用 备 机 ; 

3. 主机 上 的 服务 被 维护 人 员 误 杀 ， 无 法 自动 恢复 。 

恢复 步骤 如 下 : 

1. 维护 人 员 排 查 主机 故障 ; 

2. 将 备 机 关闭 ， 造 成 短 时 间 的 服务 不 可 用 ; 

3. 待 应 用 程序 都 连接 到 主机 后 ， 维 护 人 员 重 局 备 机 。 

恢复 过 程 是 人 工 进 行 的 ， 惨 痛 的 经 验 告 诉 我 们 自动 恢复 是 很 可 怕 的 : 


。 故障 的 发 生 会 造成 10-30 秒 之 间 的 服务 暂停 ， 如 果 这 是 一 个 里 正 的 突 发 状况 ， 
那 最 好 还 是 让 主机 暂停 服务 的 好 ， 因 为 立刻 重启 服务 可 能 造成 另 一 个 10-30 秒 
的 暂停 ， 不 如 让 用 户 停止 使 用 。 


e 当 有 紧急 状况 发 生 时 ， 可 以 在 修复 的 过 程 中 记录 故障 发 生 原 因 ， 而 不 是 让 系统 
自动 恢复 ， 管 理 员 因此 无 法 用 其 经 验 抵御 下 一 次 突 发 状况 。 


。 最 后 ， 如 果 自 动 恢复 确实 成 功 了 ， 管 理 员 将 无 从 得 知 故障 的 发 生 原 因 ， 因 而 无 
法 进行 分 析 。 


双子 星 模式 的 故障 恢复 过 程 是 : 在 修复 了 主机 的 问题 后 ， 将 备 机 做 关闭 处 理 ， 稍 后 
SEE: 








Primary Backup 


"slave" "master" 





Figure7 一 —High availability pair, during failover 
双子 星 模式 的 关闭 过 程 有 两 种 : 


1. 先 关闭 备 机 ， 等 待 一 段 时 间 后 再 关闭 主机 ; 
2， 同 时 关闭 主机 和 备 机 ， 间 隔 时 间 不 超过 几 秒 。 


关闭 时 ， 间 隔 时 间 要 比 故 障 切 换 时 间 短 ， 否 则 会 导致 应 用 程序 失去 连接 、 重 新 连 
接 、 并 再 次 失去 连接 ， 导 致 用 户 投 诉 。 


详细 要 求 


双子 星 模 式 可 以 非常 简单 ， 但 能 工作 得 很 出 色 。 事 实 上 ， 这 里 的 实现 方法 已 经 历经 
三 个 版 本 了 ， 之 前 的 版 本 都 过 于 复杂 ， 想 要 做 太 多 的 事情 ， 因 而 被 我 们 抛弃 。 我 们 
需要 的 只 是 最 基本 的 功能 ， 能 够 提供 易 理解 、 易 开发 、 高 可 靠 的 解决 方法 就 可 以 

了 。 


以 下 是 该 架构 的 详细 需求 : 


e 需要 用 到 双子 星 模式 的 故障 是 : 系统 遭受 灾难 性 的 打击 ， 如 硬件 崩溃 、 火 灾 、 
意外 等 。 对 于 其 他 常规 的 服务 器 故障 ， 可 以 用 更 简单 的 方法 。 

故障 恢复 时 间 应 该 在 60 秒 9. 内 , 理想 情况 下 应 该 在 10 秒 以 内 ; 

。 故障 恢复 (failoven) 应 该 是 自动 完成 的 ， 而 系统 还 原 (recover) 则 是 由 人 工 完成 
的 。 我 们 希望 应 用 程序 能 够 在 发 生 故 障 时 自动 从 主机 切换 到 备 机 ， 但 不 希望 在 
问题 解决 之 前 自动 切换 回 主机 ， 因 为 这 很 有 可 能 让 主机 再 次 崩 演 。 

。 程序 的 逻辑 应 该 尽量 简单 ， 吻 于 使 用 ， 最 好 能 封装 在 API 中 ; 
需要 提供 一 个 明确 的 指示 ， 哪 台 主 机 正在 提供 服务 ， 以 避免 "精神 分 裂 "的 症 

状 ， 即 两 台 服 务 器 都 认为 自己 是 主机 ; 

两 台 服务 器 的 启动 顺序 不 应 该 有 限制 ; 

局 动 或 关闭 主 从 机 时 不 需要 更 改 客户 端的 配置 ， 但 有 可 能 会 中 断 连 接 ; 

管理 员 需 要 能 够 同时 监控 两 台 机 器 ; 

两 台 机 器 之 间 必 须 有 专用 的 高 速 网 络 连接 ， 必 须 能 使 用 特定 IP 进 行路 由 。 


我 们 做 如 下 架 假 设 : 
e 单 台 备 机 能 够 提供 足够 的 保障 ， 不 需要 再 进行 其 他 备份 机 制 ; 


e 主 从 机 应 该 都 能 够 提供 完整 的 服务 ， 承 载 相 同 的 压力 ， 不 需要 进行 负载 均衡 ; 
e 预算 中 允许 有 这 样 一 台 长 时 间 闲 置 的 备 机 。 


双子 星 模式 不 会 用 到 : 


e 7 台 备 机 ， 或 在 主 从 机 之 间 进 行 负载 均衡 。 该 模式 中 的 备 机 将 一 直 处 于 空闲 状 
态 ， v s T 

。 处 理 持久 化 的 消息 息 或 事务 。 我 们 假设 所 连接 的 网 络 是 不 可 靠 的 (或 不 可 信 
的 ) 。 

e 自动 搜索 网 络 。 双 子 星 模式 是 手工 配置 的 ， 他 们 知道 对 方 的 存在 ， 应 用 程序 则 
知道 双子 星 的 存在 。 

e 主 从 机 之 间 状 态 的 同步 。 所 有 服务 端的 状态 必须 能 由 应 用 程序 进行 重建 。 


以 下 是 双子 星 模 式 中 的 几 个 术语 : 


e 主机 - ; 

e 备 机 - 情况 下 作为 slave 的 机 器 ， 只 有 当主 机 从 网 络 中 消失 时 ， 备 机 才 会 切 
E 态 ， 接 收 所 有 的 应 用 程序 请 求 ; 

e master - 双子 星 模式 中 接收 应 用 程序 请 Tm ; 同一 时 刻 只 有 一 台 master ; 

e slave - 当 master 消 失 时 用 以 顶替 的 机 器 


配置 双子 星 模式 的 步骤 : 


1. 让 主机 知道 备 机 的 位 置 ; 
2. 让 备 机 知道 主机 的 位 置 ; 
3. 调整 故障 恢复 时 间 ， 两 台 机 器 的 配置 必须 相同 。 


比较 重要 的 配置 是 应 让 两 台 机 器 间隔 多 久 检 查 一 次 对 方 的 状态 ， 以 及 多 长 时 间 后 采 
取 行 动 。 在 我 们 的 示例 中 ， 故 障 恢 复 时 间 设 置 为 2000 毫 秒 ， 超 过 这 个 时 间 备 机 就 会 
代替 主机 的 位 置 。 但 若 你 将 主机 的 服务 包 右 在 一 个 shell 脚 本 中 进行 重启 ， 就 需要 延 
长 这 个 时 间 ， 和 否则 备 机 可 能 在 主机 恢复 连接 的 过 程 中 转换 成 master 。 


要 让 客户 端 应 用 程序 和 双子 星 模式 配合 ， 你 需要 做 的 是 : 


.知道 两 台 服 务 器 的 地 址 ; 

.尝试 连接 主机 ， 若 失败 则 连接 备 机 ; 

检测 失效 的 连接 ? 一 般 使 用 心 跳 机 制 ; 

.尝试 重 连 主机 ， 然 后 再 连接 备 机 ， 其 间 的 间隔 应 比 服 务 器 故障 恢复 时 间 长 ; 
重建 服务 器 端 需要 的 所 有 状态 数据 ; 

如 果 要 保证 可 靠 性 ， 应 重 发 故障 期 间 的 消息 。 


这 不 是 件 容 易 的 事 ， 所 以 我 们 一 般 会 将 其 封装 成 一 个 API， 供 程序 员 使 用 。 
双子 星 模式 的 主要 限制 有 : 


服务 端 进程 不 能 涉及 到 一 个 以 上 的 双子 星 对 称 节点 ; 
主机 只 能 有 一 个 备 机 ; , 

当 备 机 处 于 slave 状 态 时 ， 它 不 会 处 理 任何 请 求 ; 
备 机 必须 能 够 承受 所 有 的 应 用 程序 请 求 ; 

故障 恢复 时 间 不 能 在 运行 时 调整 ; 

客户 端 应 用 程序 需要 做 一 些 重 连 的 工作 。 


OO 人 上 cN 一 


防止 精神 分 裂 


“精神 分 裂 "症状 指 & 3 — /- CBE P EAS FI 部 分 同时 认为 自己 是 master， 从 而 停止 对 
对 方 的 检测 。 双 子 星 模式 中 的 算 I r 主 备 机 在 决定 自己 
是 否 为 master 时 会 检测 自身 是 否 收 到 了 应 用 程序 的 请 求 ， 以 及 对 方 是 否 已 经 从 网 络 
中 消失 。 


但 在 茶 些 情况 下 ， 双 子 星 模式 也 会 发 生 精 神 分 裂 。 上 比如 说 ， 主 备 机 被 配置 在 两 尽 大 
楼 里 ， 每 幢 大 楼 的 局 域 网 中 又 分 布 了 一 些 应 用 程序 。 这 样 ， 当 两 由 大 楼 的 网 络 通信 
被 阻 断 ， 双 子 星 模式 的 主 备 机 就 会 分 别 在 两 尽 大 楼 里 接受 和 处 理 请 求 。 


为 了 防止 精神 分 裂 ， 我 们 必须 让 主 备 机 使 用 专用 的 网 络 进行 连接 ， 最 简单 的 方法 当 
然 是 用 一 根 双 绞 线 将 他 们 相连 。 


我 们 不 能 将 双子 星 部 署 在 两 个 不 同 的 岛屿 上 ， 为 各 自 岛屿 的 应 用 程序 服务 。 这 种 情 
况 下 ， 我 们 会 使 用 诸如 联邦 模式 的 机 制 进行 可 靠 性 设计 。 


最 好 但 最 夸张 的 做 法 是 ， 将 两 台 机 器 之 间 的 连接 和 应 用 程序 的 连接 完全 隔离 开 来 ， 
甚至 是 使 用 不 同 的 网 卡 ， 而 不 仅仅 是 不 同 的 端口 。 这 样 做 也 是 为 了 日 后 排查 错误 时 
更 为 明确 。 

实现 双子 星 模式 

闲话 少 说 ， 下 面 是 双子 星 模式 的 服务 端 代码 : 


bstarsrv: Binary Star server in C 


// 

// 双子 星 模式 - 服务 端 

Hi 

#include "czmq.h" 

// 发 送 状态 信息 的 间隔 时 间 

ot dpud UL P 
define HEARTBEAT 1000 // In msecs 


// 服务 器 状态 枚 举 
typedef enum { 
STATE PRIMARY = 1, // E 





tI 
STATE BACKUP - 2, // ” 备 机 ， 等 待 同伴 连接 
STATE ACTIVE = 3, // ”激活 态 ， 处 理应 用 程序 请 求 
STATE_PASSIVE = 4 // RAS’ TRER 


} state_t; 


// ”对 话 节点 事件 
typedef enum ( 
PEER PRIMARY = 1, PEE: 


PEER_BACKUP = 2, // ZA 
PEER_ACTIVE = 3, // ”激活 态 
PEER_PASSIVE = 4, // ”被 动态 
CLIENT_REQUEST = 5 // ”客户 端 请 求 


ZN | O 358 m 


) event t; 


// 有 限 状 态 机 

typedef struct 1 
States sitate» 
event t event; 


int64 t peer expiry; 


} bstar t; 


// 


// 发 生 异常 时 返回 TRUE ° 


static Bool 


s state machine (bstar 


( 


Bool exception - 
// 主机 等 待 同伴 连接 
YA 
if (fsm->state 

if (fsm->event 


Bm cr: 
fsm->state 
} 
else 
if (fsm->event 
printi (GT: 
fsm->state 
} 
} 
else 
// 备 机 等 待 同伴 连接 
// 


if (fsm->state 
if (fsm->event 


on oc ne 


fsm-»state 
} 
else 
if (fsm->event 
exception 
} 
else 
zu 
YA 
if (fsm->state 
if (fsm->event 


服务 器 处 于 激活 态 


// 当前 状态 
// 当前 事件 
// 判定 节点 死亡 的 时 限 


执行 有 限 状 态 机 〈 将 事件 绑 定 至 状态 ) 


t *fsm) 


FALSE; 


该 状态 下 接收 CLIENT_REQUEST 事 件 
STATE PRIMARY) { 


PEER BACKUP) { 
已 连接 至 备 机 (slave) > tZ master i£ £T » Nn"); 
- STATE ACTIVE; 


PEER ACTIVE) ( 
已 连接 至 备 机 (master) ， 可 以 作为 slave 运 行 。\n")， 
= STATE PASSIVE; 


该 状态 下 拒绝 CLIENT_REQUEST 事 件 
STATE BACKUP) { 


PEER ACTIVE) ( 
已 连接 至 主机 (master ) 
= STATE PASSIVE; 


， 可 以 作为 slave 运 行 。\n"); 


CLIENT REQUEST) 
TRUE; 


该 状态 下 接受 CLIENT_REQUEST 事 件 
STATE ACTIVE) ( 


PEER ACTIVE) ( 


// ”车 出 现 两 台 master， 则 抛 出 异常 
printf ("E: 人 smaster » 3EZE3E H4 » Nn"); 


exception 


else 


TRUE; 


N ş 
N 


77 
Z 
SHE 


j 


retu 


int main 


ZCtX 
void 
void 
void 


服务 器 处 于 被 动态 

若 同 伴 已 死 ，CLIENT_REQUEST 事 件 将 触发 故障 恢复 

fsm->state == STATE PASSIVE) ( 

if (fsm->event -- PEER PRIMARY) ( 
// ”同伴 正在 重启 - 转 为 激活 态 ， 同 伴 将 转 为 被 动态 。 
printf ("I: £4 (slave) Et € & » 3T TEXimaster i£ £4 
fsm->state = STATE ACTIVE; 

} 

else 

if (fsm->event == PEER BACKUP) ( 
// 同伴 正在 重启 - 转 为 激活 态 ， 同 伴 将 转 为 被 动态 。 


printf ("I: 备 机 (slave) 正在 重启 ， 可 作为 master 运 行 。 


fsm->state = STATE ACTIVE; 
} 
else 
if (fsm->event == PEER PASSIVE) ( 
// ” 若 出 现 两 台 Slave， 集 群 将 无 响应 
printf ("E: j* €4&iX slave » 3E E 3É Nn"); 
exception - TRUE; 
} 
else 
if (fsm->event == CLIENT REQUEST) { 
// ” 若 心 跳 超 时 ， 同 伴 将 成 为 master ; 
// ”此 行为 由 客户 端 请 求 触发 。 
assert (fsm->peer_expiry > 0); 
if (zclock time () >= fsm->peer_expiry) { 
// 同伴 已 死 ， 转 为 激活 态 。 
printf ("I: 故障 恢复 ， 可 作为 master 运 行 。\n"); 
fsm->state = STATE ACTIVE; 
} 
else 
// 同伴 还 在 ， 拒 绝 请 求 。 
exception = TRUE; 


j 


rn exception; 


(Gne argc, char *argv [1) 


命令 行 参数 可 以 为 : 
-p ”作为 主机 启动 ，at tcp://localhost:5001 
-b 作为 备 机 启动 ，at tcp://localhost:5002 


|t *ctx - zctx new (); 


*statepub = zsocket new (ctx, ZMQ PUB); 
*statesub zsocket new (ctx, ZMQ SUB); 
*frontend zsocket new (ctx, ZMQ ROUTER); 


bstar t fsm = (0 Y; 


ipi 


argc -- 2 && streq (argv [1], "-p")) ( 
printf ("I: 主机 master， 等 待 备 机 (slave) 连接 。\n"); 
zsocket bind (frontend, "tcp://*:5001"); 


zm 


NI 


zsocket 


bind (statepub, "tcp://*:5003"); 


zsocket connect (statesub, "tcp://localhost:5004"); 
fsm.state - STATE PRIMARY; 
} 
else 
if (argc == 2 && streq (argv [1], "-b")) ( 
printf ("I: 各 机 Slave， 等 待 主机 (master) 3&4& ° Nn"); 
zsocket bind (frontend, "tcp://*:5002"); 
zsocket bind (statepub, "tcp://*:5004"); 
zsocket connect (statesub, "tcp://localhost:5003"); 
fsm.state - STATE BACKUP; 
} 
else ( 
printf ("Usage: bstarsrv { -p | -b n"); 
zctx destroy (&ctx); 
exit (0); 
J 
// ” 设 定 下 一 次 发 送 状态 的 时 间 


int64 t send 


while (!zctx 


state at = zclock time () + HEARTBEAT; 


interrupted) ( 


zmq pollitem t items [] = ( 
{ frontend, ©, ZMQ POLLIN, © Jj, 
{ statesub, ©, ZMQ POLLIN, 9 } 
3 
int time left = (int) ((send state at - zclock time ())); 
if (time left « 0) 
time left - 0; 
int rc - zmq poll (items, 2, time left * ZMQ POLL MSEC); 
if (rc -- -1) 
break; // ”上下文 对 象 被 关闭 
if (items [0].revents & ZMQ POLLIN) ( 
// ” 收 到 客户 端 请 求 
zmsg_t *msg = zmsg_recv (frontend); 
fsm.event = CLIENT REQUEST; 
if (s state machine (&fsm) -- FALSE) 
// 返回 应 答 
zmsg send (&msg, frontend); 
else 


zmsg destroy (&msg); 


j 
if (items [i].revents & ZMQ POLLIN) ( 


/ / 
char 
fsm. 


收 到 状态 消息 ， 作 为 事件 处 理 
*message = zstr recv (statesub); 
event - atoi (message); 


free (message); 


P 


fsm. 


} 


s_state_machine (&fsm)) 
break; M pateo Ene 
peer_expiry = zclock_time () + 2 * HEARTBEAT; 


发 送 状 态 信息 


// Rə 


if (zclock time () >= send state at) ( 


char message [2]; 

sprintf (message, "9d", fsm.state); 

zstr send (statepub, message); 

send state at = zclock time () + HEARTBEAT; 


j 


if (zctx interrupted) 
printf ("Ws REANG) 


// 关闭 套 接 字 和 上 下 文 
zctx destroy (&ctx); 
return 0; 





下 面 是 客户 端 代码 : 


bstarcli: Binary Star client in C 


// 

// AFERA - ZPR 
"i 

Zinclude "czmq.h" 


4define REQUEST TIMEOUT 1000 // 毫秒 
Zdefine SETTLE DELAY 2000 // 超时 时 间 


int main (void) 


{ 


Zctx t *ctx = zctx new (); 


t "tcpi//Zlocalhost:5001' "tfcpriX/Localhost:b! 
0; 


char *server [] = 
uint server nbr - 
printf ("I: 正在 连接 服务 器 %s...\n", server [server nbr]); 
void *client - zsocket new (ctx, ZMQ REQ); 

zsocket connect (client, server [server nbr]); 


int sequence - 0; 

while (!zctx interrupted) ( 
char request [10]; 
sprintf (request, "9d", ++sequence); 
zstr send (client, request); 


int expect reply - 1; 
while (expect reply) { 
// ” 轮 询 套 接 字 
zmq pollitem t items [] = ( { client, 0, ZMQ POLLIN, 0 
int rc = zmq poll (items, 1, REQUEST TIMEOUT * ZMQ POLI 
if (rc == -1) 
break; // WW 


// 处 理应 答 
if (items [0].revents & ZMQ POLLIN) ( 
// 审核 应 答 编 号 
char *reply = zstr recv (client); 
if (atoi (reply) -- sequence) ( 
printf ("I: 服务 端 应 答 正 常 (9s)Nn", reply); 
expect reply = 0; 
sleep (1); // 每 秒 发 送 一 个 请 求 


} 
else ( 
printf ("E: 错误 的 应 答 内 容 ;: 9*sNn", 
reply); 
} 
free (reply); 
} 
else ( 
printf ("W: 服务 器 无 响应 ， 正 在 重 试 \n"); 
// ” 重 开 套 接 字 
zsocket destroy (ctx, client); 
server nbr = (server nbr + 1) % 2; 
zclock sleep (SETTLE DELAY); 
printf ("I: 正在 连接 服务 端 9S... Nn", 
server [server nbr]); 
client - zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, server [server nbr]); 


// 使 用 新 套 接 字 重 发 请 求 


zstr send (client, request); 


} 
} 
zctx destroy (&ctx); 
rae teuer 





运行 以 下 命令 进行 测试 ， 顺 序 随意 : 


bstarsrv -p # Start primary 
bstarsrv -b # Start backup 
bstarcli 


可 以 将 主机 进程 杀 掉 ， 测 斌 故障 恢复 机 制 ; 再 开局 主机 ， 杀 掉 备 机 ， 查 看 还 原 机 
制 。 要 注意 是 由 客户 端 触 发 这 两 个 事件 的 。 


下 图 展现 了 服务 进程 的 状态 图 。 绿 色 状 态 下 会 接收 客户 端 请 求 ， 粉 色 状 态 会 拒绝 请 
求 。 事 件 指 的 是 同伴 的 状态 ， 所 以 “同伴 激活 态 ” 指 的 是 同伴 机 器 告知 我 们 它 处 于 激 

活 态 。“ 客 户 请 求 "表示 我 们 从 客户 端 获得 了 请 求 ，“ 客 户 投 票 " 则 指 我 们 从 客户 端 获得 
了 请 求 并 且 同 伴 已 经 超时 死亡 。 









Peer| Active Peer| Active Peer| Active 


Peer Backup qe Peer|Primary 


Peer| Passive Client Vote 


Figure8 一 Binary Star finite state machine 


需要 注意 的 是 ， 服 务 进程 使 用 PUB-SUB 套 接 字 进 行 状态 交换 ， 其 它 类 型 的 套 接 字 
在 这 里 不 适用 。 比 如 ，PUSH 和 DEALER 套 接 字 在 没有 节点 相连 的 时 候 会 发 生 阻 
X ; PAIR 套 接 字 不 会 在 节点 断 开 后 进行 重 连 ; ROUTER 套 接 字 需要 地 址 才能 发 送 





These are the main limitations of the Binary Star pattern: 


A server process cannot be part of more than one Binary Star pair. 

A primary server can have a single backup server, no more. 

The backup server cannot do useful work while in slave mode. 

The backup server must be capable of handling full application loads. 
Failover configuration cannot be modified at runtime. 

Client applications must do some work to benefit from failover. 


双子 星 反 应 堆 


我 们 可 以 将 双子 星 模式 打包 成 一 个 类 似 反应 堆 的 类 ， 供 以 后 复 用 。 在 C 语 言 中 ， 我 
们 使 用 czmq 的 zloop 类 ， 其 他 语言 应 该 会 有 相应 的 实现 。 以 下 是 C 语 言 版 的 bstar 接 
口 : 


ZMQ 指南 


// 创建 双子 星 模式 实例 ， 使 用 本 地 (UE) 和 远程 (连接 ) 端点 来 设置 节点 对 。 
bstar t *bstar new (int primary, char *local, char *remote); 


// 销毁 实例 
void bstar destroy (bstar t **self p); 


// 返回 底层 的 zl1o0p 反 应 堆 ， 用 以 添加 定时 器 、 读 取 器 、 注 册 和 取消 等 功能 。 

zloop t *bstar zloop (bstar t *self); 

// 注册 投票 读 取 器 

int bstar voter (bstar t *self, char *endpoint, int type, 

zloop fn handler, void *arg); 

// 注册 状态 机 处 理 器 

void bstar new master (bstar t *self, zloop fn handler, void *arg), 
void bstar new slave (bstar t *self, zloop fn handler, void *arg); 


// 开局 反应 堆 ， 当 回调 函数 返回 -1， 或 进程 收 到 SIGINT、SIGTERM 信 号 时 中 止 。 
antobstarsstart (bstar-t csel): 


二 Bil 
以 下 是 类 的 实现 : 


bstar: Binary Star core class in C 


VAS 于 
bstar - Binary Star reactor 
Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 
This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 
This is free software; you can redistribute it and/or modify il 
the terms of the GNU Lesser General Public License as publishe« 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 
This software is distributed in the hope that it will be usefu- 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GI 
Lesser General Public License for more details. 
You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http: //www.gnu.org/licenses/». 

m EGR 


Zinclude "bstar.h" 
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// 服务 器 状态 枚 举 
typedef enum ( 


STATE PRIMARY = 1, // 主机， 等待 同伴 连接 
STATE_BACKUP = 2, // ” 备 机 ， 等 待 同伴 连接 
STATE ACTIVE = 3, // 激活 态 ， 处 理应 用 程序 请 求 
STATE_PASSIVE = 4 // 被 动态 ， 不 接收 请 求 

) state t; 

// 对话 节点 事件 

typedef enum { 
PEER PRIMARY = 1, // 主机 
PEER BACKUP - 2, // ZA 
PEER_ACTIVE = 3, // 激活 态 
PEER_PASSIVE = 4， // 被 动态 
CLIENT_REQUEST = 5 // ”客户 端 请 求 


} event t; 


// 发 送 状态 信息 的 间隔 时 间 

// ”如 果 对 方 在 两 次 心跳 过 后 都 没有 应 答 ， 则 视 为 断 开 

#define BSTAR HEARTBEAT 1000 // In msecs 
// ”类 结构 


struct Pbstar t ( 


ZCX CX // ”私有 上 下 文 
zloop t *loop; // 反应 扒 循环 
void *statepub; // 状态 发 布 者 
void *statesub; // MX&iEXx 
state t state; // 当前 状态 
event t event; // 当前 事件 
int64 t peer expiry; // 判定 节点 死亡 的 时 限 
zloop fn *voter fn; // ”投票 套 接 字 处 理 器 
void *voter_arg; // 投票 处 理 程序 的 参数 
zloop fn *master fn; // ”成 为 master 时 回调 
void *master arg; // 参数 
zloop fn *slave fn; // ”成 为 slave 时 回调 
void *slave arg; // 参数 

3 

7 Nc ce E 


// ”执行 有 限 状 态 机 (将 事件 绑 定 至 状态 ) : 
// 发 生 异 常 时 返回 -1， 正 确 时 返回 9。 


Static Int 
s execute fsm (bstar t *self) 
( E 
int rc - 0; 
// ”主机 等 待 同 伴 连接 
// ”该 状态 下 接收 CLIENT_REQUEST 事 件 
if (self->state == STATE PRIMARY) ( 


if (self-»event == PEER BACKUP) ( 
zclock log ("I: 已 连接 至 备 机 (slave) ， 可 以 作为 master 运 行 。" 
self->state = STATE ACTIVE; 
if (self-»master fn) 
(self-»2master fn) (self->loop, NULL, self-»master : 
} 
else 
if (self->event == PEER ACTIVE) ( 
zclock log ("I: 已 连接 至 备 机 (master) ， 可 以 作为 slave 运 行 
self->state = STATE PASSIVE; 
if (self->slave fn) 
(self-»2slave fn) (self-»2100p, NULL, self-»slave art 


} 
else 
if (self->event == CLIENT REQUEST) { 
zclock log ("I: 收 到 客户 端 请 求 ， 可 作为 master 运 行 。"); 
self->state = STATE ACTIVE; 
if (self->master_fn) 
(self->master_fn) (self->loop, NULL, self->master : 
} 
} 
else 


YH 备 机 等 待 同伴 连接 
// ”该 状态 下 拒绝 CLIENT_REQUEST 事 件 
if (self->state == STATE BACKUP) { 
if (self->event == PEER ACTIVE) ( 

zclock log ("I: 已 连接 至 主机 (master) ， 可 以 作为 slave 运 行 。" 

self->state = STATE PASSIVE; 

if (self->slave fn) 

(self->slave_fn) (self->loop, NULL, self->slave art 


} 
else 
if (self->event == CLIENT_ REQUEST) 
rc - -1; 
} 
else 


// 服务 器 处 于 激活 态 

// ”该 状态 下 接受 CLIENT_REQUEST 事 件 

// 只 有 服务 器 死亡 才 会 离开 激活 态 

if (self->state == STATE ACTIVE) ( 

XT (self- >event == PEER_ACTIVE) ( 

// ŁBA master’ Mw kA X 
zclock_log ("E: 严重 错误 : 双 master。 正 在 退出 。" ) ; 
re S -1; 


} 
else 
// 服务 器 处 于 被 动态 
// ” 若 同 伴 已 死 ，CLIENT_REQUEST 事 件 将 触发 故障 恢复 
if (self->state == STATE PASSIVE) ( 
if (self-»event == PEER PRIMARY) ( 
// 同伴 正在 重启 - 转 为 激活 态 ， 同 伴 将 转 为 被 动态 。 
zclock log ("I: 主机 (slave) 正在 重启 ， 可 作为 master 运 行 。")， 


int 


self-»2state = STATE ACTIVE; 


j 


else 

if (self-»event == 
// ”同伴 正在 重启 
zclock log ("I: 


PEER BACKUP) ( 
- 转 为 激活 态 ， 同 伴 将 转 为 被 动态 。 
备 机 (slave) 正在 重启 ， 可 作为 master 运 行 。")， 


self->state = STATE ACTIVE; 


j 


else 
if (self-»event == 


PEER PASSIVE) ( 


// ZRA slave’ REH ZA% 


zclock log ("E: 
rc = -1; 

} 

else 

if (self->event == 


严重 错误 : 双 slave。 正 在 退出 ")， 


CLIENT_REQUEST) { 


// ” 若 心 跳 超 时 ， 同 伴 将 成 为 master ; 
// ”此 行为 由 客户 端 请 求 触发 。 


assert (self->p 

if (zclock time 
// 同伴 已 死 
zclock log 
self-»state 


} 


else 
// 同伴 还 在 
rc - -1; 


} 

// ”触发 状态 更 改 事件 处 

if (self->state == 
(self-»master f 


j 


returnine; 


反应 扒 事件 处 理 程序 


发 送 状 态 信 息 
s send state (zloop t * 


eer_expiry 0); 
() >= self-»peer expiry) ( 
， 转 为 激活 态 。 
("I: 故障 恢复 ， 可 作为 master 运 行 。" ) ; 
= STATE ACTIVE; 


， 拒 绝 请 求 。 


理 函 效 
STATE ACTIVE && self-»master fn) 
n) (self->loop, NULL, self-»master arg), 


loop, void *socket, void *arg) 


bstar t *self = (bstar t *) arg; 
zstr sendf (self-»-statepub, "9d", self-»state); 


iet uma 


接收 状态 信息 ， 启 动 有 限 状态 机 


S-recv state (zloop t * 


loop, void *socket, void *arg) 


bstar t *self - (bstar t *) arg; 
char *state - zstr recv (socket); 


if (state) { 


self-»event = atoi (state); 
self-»peer expiry = zclock time () + 2 * BSTAR HEARTBEAT; 
free (state); 


j 


return s execute fsm (self); 


JL) 1c 8| JL 用 程序 请 求 , 判断 是 AE 和 否 接收 
int s voter ready (zloop t *loop, void *socket, void *arg) 


bstar t *self - det - M arg; 
// ”如 果 能 够 处 理 请 求 ， 用 有 函数 
self->event = PM UC 
if (s execute fsm (self) == 0) ( 
puts ("CLIENT REQUEST"); 
(self-»2voter fn) (self-»2100p, socket, self-»voter arg); 


} 
else ( 
// 销毁 等 待 中 的 消息 
zmsg t *msg = zmsg recv (socket); 
zmsg destroy (&msg); 
} 
ekaneo, 
} 
// ------------- 
// WS 
bstar t * 
bstar new (int primary, char *local, char *remote) 
{ 
bstar t 


*self; 
self = (bstar t *) zmalloc (sizeof (bstar t)); 


//. ied 5sUT AE 

self-»ctx = zctx new (); 

self->loop = zloop new (); 

self-»state = primary? STATE PRIMARY: STATE BACKUP; 


// ”创建 状态 PUB 套 接 字 
self->statepub = zsocket new (self->ctx, ZMQ PUB); 
zsocket bind (self-»-statepub, local); 


// ”创建 状态 SUB 套 接 字 
self->statesub = zsocket new (self->ctx, ZMQ SUB); 
zsocket connect (self-»statesub, remote); 


/ / 设置 基本 的 反应 HÈ 3E br Ab 38 2S 2 
zloop timer (self-»1loop, BSTAR. HEARTBEAT, 0, S send state, seli 
zloop reader (self->loop, self-»statesub, s recv state, self); 


R AN LU, 了 
ZMQ 相国 


} 

// ---------------------------------------------------- 
// M ARA 

void 

bstar destroy (bstar t **self p) 

1 


assert (self p); 

if (*self p) ( 
bstar t *self - *self p; 
zloop destroy (&self-»2100p); 
zctx destroy (&self-»ctx); 
free (self); 
*self p - NULL; 


} 
} 
// --------------- 
// ”返回 底层 ZzZ100p 对 象 ， 用 以 添加 额外 的 定时 器 、 阅 读 器 等 。 
zloopsto* 
bstar zloop (bstar t *self) 
{ 
return self->loop; 
} 
// ---------------- 


// 创建 套 接 字 ， 连 接 至 本 地 端点 ， 注 册 成 为 阅读 器 ; 
// 只 有 当 有 限 状态 机 允许 时 才 会 读 取 该 套 接 字 ; 
// ”从 该 套 接 字 获 得 的 消息 将 作为 一 次 “投票 ”; 
// 我 们 要 求 双 子 星 模式 中 只 有 一 个 “投票 " 套 接 字 。 


SD: 
bstar voter (bstar t *self, char *endpoint, int type, zloop fn hanı 
void *arg) 


{ 

// ”保存 原始 的 回调 函数 和 参数 ， 稍 后 使 用 

void *socket = zsocket new (self->ctx, type); 

zsocket bind (socket, endpoint); 

assert (!self-»voter fn); 

self-»voter fn = handler; 

self-»voter arg = arg; 

return zloop reader (self->loop, socket, s voter ready, self); 
} 
// ------------------------------------------------------- 


// 注册 状态 变化 事件 处 理 器 


void 
bstar new master (bstar t *self, zloop fn handler, void *arg) 
{ 

assert (!self->master_fn); 

self->master_fn = handler; 

self->master_arg = arg; 


} 


void 
bstar new slave (bstar t *self, zloop fn handler, void *arg) 
1 

assert (!self-»slave fn); 

self-»slave fn = handler; 

self-»5slave arg = arg; 


// ------------- 
// ”启用 或 禁止 跟踪 信息 
void bstar set verbose (bstar t *self, Bool verbose) 


( 


zloop set verbose (self->loop, verbose); 


// 开局 反应 堆 ， 当 回调 函数 返回 -1， 或 进程 收 到 SIGINT、SIGTERM 信 号 时 中 止 。 


了 Le 
bstar start (bstar t *self) 
i 
assert (self-»voter fn); 
return zloop start (self-»-100p); 





这 样 一 来 ， 我 们 的 服务 端 代码 会 变 得 非常 简短 : 


bstarsrv2: Binary Star server, using core class in C 


72, 
// 双子 星 模式 服务 端 ， 使 用 bstar 反 应 堆 
7 


// 直接 编译 ， 不 建 类 库 
Zinclude "bstar.c" 


// Echo service 
int s echo (zloop t *loop, void “socket, void *arg) 
{ 

zmsg_t *msg = zmsg_recv (socket); 

zmsg_send (&msg, socket); 


neturi 
} 
int main (int argc, char *argv []) 
{ 
// ”命令 行 参数 可 以 为 : 
// -p ”作为 主机 启动 ，at tcp://localhost:5001 
// -b 作为 备 机 启动 ，at tcp://localhost:5002 
bstar_t *bstar; 
if (argc -- 2 && streq (argv [1], "-p")) 
printf ("I: 主机 master， 等 待 备 机 (slave) 连接 。\n"); 
bstar = bstar new (BSTAR PRIMARY, 
Ztcprz75955003 tep: 7/7 Tocalhost:5094.)5 
bstar voter (bstar, "tcp://*:5001", ZMQ ROUTER, s echo, NUI 
J 
else 
if (argc -- 2 && streq (argv [1], "-b")) ( 
printf ("I: 备 机 slave， 等 待 主机 (master) 3&4£& ° Nn"); 
bstar = bstar new (BSTAR BACKUP, 
Vtcpi77*25904" "tcp: locallost:5993")5 
bstar voter (bstar, "tcp://*:5002", ZMQ ROUTER, s echo, NUI 
else ( 
printf ("Usage: bstarsrvs { -p | -b 3n"); 
exit (0); 
} 
bstar_start (bstar); 
bstar destroy (&bstar); 
LEGERE): os 
} 





无 中 间 件 的 可 靠 性 (自由 者 模式 ) 


我 们 讲 了 那么 多 关于 中 间 件 的 示例 ， 好 像 有 些 违 背 "“ZMQ 是 无 中 间 件 "的 说 法 。 但 要 
知道 在 现实 生活 中 ， 中 间 件 一 直 是 让 人 又 爱 又 恨 的 东西 。 实 践 中 的 很 多 消息 架构 能 
都 在 使 用 中 间 件 进行 分 布 式 架构 的 搭建 ， 所 以 说 最 终 的 决定 还 是 需要 你 自己 去 权衡 


的 。 这 也 是 为 什么 虽然 我 能 驾车 10 分 钟 到 一 个 大 型 商场 里 购买 五 箱 音 量 ， 但 我 还 是 
会 选择 走 10 分 钟 到 楼 下 的 便利 店 里 去 买 。 这 种 出 于 经 济 方面 的 考虑 (时 间 、 精 力 、 
成 本 等 ) 不 仅 在 日 常生 活 中 很 常见 ， 在 软件 架构 中 也 很 重要 。 


这 就 是 为 什么 ZMQ 不 会 强制 使 用 带 有 中 间 件 的 架构 ， 但 仍 提 供 了 像 内 置 装置 这 样 的 
中 间 件 供 编程 人 员 自 由 选用 。 


这 一 节 我 们 会 打破 以 往 使 用 中 间 件 进行 可 靠 性 设计 的 架构 ， 转 而 使 用 点 对 点 架构 ， 
即 自由 者 模式 ， 来 进行 可 靠 的 消息 传输 。 我 们 的 示例 程序 会 是 一 个 名 称 解 析 服 务 。 
ZMQ 中 的 一 个 常见 问题 是 : 我 们 如 何 得 知 需要 连接 的 端点 ?在 代码 中 直接 写 入 
TCP/IP 地 址 肯定 是 不 合适 的 ; 使 用 配置 文件 会 造成 管理 上 的 不 便 。 试 想 一 下 ， 你 要 
在 上 百 台 计算 机 中 进行 配置 ， 只 是 为 了 让 它们 知道 google.com 的 IP 地 址 是 
74.125.230.82。 


一 个 ZMQ 的 名 称 解 析 服 务 需要 实现 的 功能 

。 将 逻辑 名 称 解析 为 一 个 或 多 个 端点 地 址 ， 包 括 绑 定 端 和 连接 端 。 实 际 使 用 时 ， 
名 称 服务 会 提供 一 组 端点 。 

。 允许 我 们 在 不 同 的 环境 下 ， 即 开发 环境 和 生产 环境 ， 进 行 解析 ; 

o 该 服务 必须 是 可 靠 的 ， 否 则 应 用 程序 将 无 法 连接 到 网 络 。 


为 管家 模式 提供 名 称 解析 服务 会 很 有 用 ， 虽 然 将 代理 程序 的 端点 对 外 暴露 也 很 简 
单 ， 但 是 如 果 用 好 名 称 解析 服务 ， 那 它 将 成 为 唯一 一 个 对 外 暴露 的 接口 ， 将 更 便于 


我 们 需要 处 理 的 故障 类 型 有 : 服务 前 溃 或 重启 、 服 务 过 载 、 网 络 因 素 等 。 为 获取 可 
靠 性 ， 我 们 必须 建立 一 个 服务 群 ， 当 某 个 服务 端 衣 溃 后 ， 客 户 端 可 以 连接 其 他 的 服 
务 端 。 实 践 中 ， 两 个 服务 端 就 已 经 足够 了 ， 但 事实 上 服务 端的 数量 可 以 是 任意 个 。 


Client | Client | Client | 











connect connect connect 
bind bind bind 
Figure9 一 The Freelance Pattern 


在 这 个 架构 中 ， 大 量 客户 端 和 少量 服务 端 进行 通信 ， 服 务 端 将 套 接 字 绑 定 至 单独 的 

端口 ， 这 和 管家 模式 中 的 代理 有 很 大 不 同 。 对 于 客户 端 来 说 ， 它 有 这 样 几 种 选择 : 

e 客户 端 可 以 使 用 REQ 套 接 字 和 懒惰 海盗 模式 ， 但 需要 有 一 个 机 制 防 止 客户 端 不 
断 地 请 求 已 停止 的 服务 端 。 

e 客户 端 可 以 使 用 DEALER 套 接 字 ， 向 所 有 的 服务 端 发 送 请 求 。 很 简单 ， 但 并 不 
大 妙 ; 


e 客户 端 使 用 ROUTER 套 接 字 ， 连 接 特 定 的 服务 端 。 但 客户 端 如 何 得 知 服务 端的 
套 接 字 标识 呢 ? 一 种 方式 是 让 服务 端 主动 连接 客户 端 (很 复杂 ) ， 或 者 将 服务 
端 标 识 写 入 代码 进行 固化 (很 混乱 ) e 


模型 一 : 简单 重 试 


让 我 们 先 尝试 简单 的 方案 ， 重 写 懒惰 海盗 模式 ， 让 其 能 够 和 多 个 服务 端 进行 通信 。 
启动 服务 端 时 用 命令 行 参数 指定 端口 。 然 后 启动 多 个 服务 端 。 


flserver1: Freelance server, Model One in C 


Ch 

// 自由 者 模式 - 服务 端 - 模型 1 
// ”提供 echo 服 务 

/ Jf 


Zinclude "czmq.h" 


int main (int argc, char *argv []) 


{ 
if (arge < 2) 1 
printf ("I: syntax: %s «endpoint»*n", argv [0]); 
exit (EXIT SUCCESS); 
} 
zctx_t *ctx = zctx new (); 
void *server - zsocket new (ctx, ZMQ REP); 
zsocket bind (server, argv [1]); 
printf ("I: echo 服 务 端点 : %s\n", argv [1]); 
while (TRUE) ( 
zmsg t *msg - zmsg recv (server); 
if (!msg) 
break; // Bi 
zmsg send (&msg, server); 
if (zctx interrupted) 
Penn Ef ct sU 
zctx destroy (&ctx); 
return 0; 
} 


启动 客户 端 ' 指定 一 个 或 多 个 端点 : 


flclient1: Freelance client, Model One in C 


2 

// 自由 者 模式 - WP - 模型 1 

// ”使 用 REQ 套 接 字 请 求 一 个 或 多 个 服务 端 
PE 

Zinclude "czmg.h" 


4define REQUEST TIMEOUT 1000 
Zdefine MAX RETRIES 3 // 尝试 次 数 


sane zmsomee. 
s try request (zctx t *ctx, char *endpoint, zmsg t *request) 
{ 
printf ("I: 在 端点 «s 上 尝试 请 求 echo 服 务 ...\n",，endpoint)，; 
void *client = zsocket new (ctx, ZMQ REQ); 
zsocket connect (client, endpoint); 


zmsg t *msg - zmsg dup (request); 
zmsg send (&msg, client); 
zmq pollitem t items [] = ( ( client, ©, ZMQ POLLIN, © } Y; 
zmq poll (items, 1, REQUEST TIMEOUT * ZMQ POLL MSEC); 
zmsg t *reply - NULL; 
if (items [90].revents & ZMQ POLLIN) 

reply - zmsg recv (client); 


// ”关闭 套 接 字 
zsocket destroy (ctx, client); 
return reply; 


ine main rnboarge s char argv np) 


Zzctx t *ctx = zctx new (); 

zmsg t *request - zmsg new (); 

zmsg addstr (request, "Hello world"); 
zmsg t *reply - NULL; 


int endpoints - argc - 1; 
if (endpoints == 0) 
printf ("I: syntax: 9s «endpoint» ...n", argv [0]); 


else 
if (endpoints -- 1) ( 
// ” 若 只 有 一 个 端点 ， 则 尝试 N 次 


int retries; 

for (retries = 0; retries < MAX RETRIES; retries++) { 
char *endpoint - argv [1]; 
reply - s try request (ctx, endpoint, request); 


if (reply) 
break; // ÈJ 
printf ("W: 没有 收 到 9«s 的 应 答 ， 准 备 重 试 ...\n"，endpoint); 
} 
} 
else ( 
// ” 若 有 多 个 端点 ， 则 每 个 尝试 一 次 


int endpoint nbr; 
for (endpoint nbr = 0; endpoint nbr < endpoints; endpoint ir 


char *endpoint = argv [endpoint nbr + 1]; 
reply - s try request (ctx, endpoint, request); 
if (reply) 
break; // Successful 
printf ("W: 没有 收 到 9s $E Xn", endpoint); 
} 


} 
if (reply) 
printi CRA E EEN 


zmsg_destroy (&request); 
zmsg_destroy (&reply); 
zctx_destroy (&ctx); 
returno: 


I Y 





可 用 如 下 命令 运行 : 


flserveri tcp://*:5555 & 
flserveri tcp://*:5556 & 
flclienti tcp://localhost:5555 tcp://localhost:5556 


客户 端的 核心 机 制 是 懒惰 海 资 模式， 即 获得 一 次 成 功 的 应 答 后 就 结束 。 会 有 两 种 情 
见 : 


e 如 果 只 有 一 个 服务 端 ， 客 户 端 会 再 尝试 N 次 后 停止 ， 这 和 懒惰 海 资 模式 的 逮 辑 
一 致 ; 
e 如 果 有 多 个 服务 端 ， 客 户 端 会 每 个 尝试 一 次 ， 收 到 应 答 后 停止 。 
这 种 机 制 补 充 了 海 资 模式， 使 其 能 够 克服 只 有 一 个 服务 端的 情况 。 


但 是 ， 这 种 设计 无 法 在 现实 程序 中 使 用 : 当 有 很 多 客户 端 连 接 了 服务 端 ， 而 主 服务 
端 户 溃 了 ， 那 所 有 客户 端 都 需要 在 超时 后 才能 继续 执行 。 


JR :4tx* AG 
下 面 让 我 们 使 用 DEALER 套 接 字 。 我 们 的 目标 是 能 再 最 短 的 时 间 里 收 到 一 个 应 答 ， 
不 能 受 主 服务 端 前 溃 的 影响 。 可 以 采取 以 下 措施 : 


连接 所 有 的 服务 端 ; 
当 有 请 求 时 ， 一 次 性 发 送 给 所 有 的 服务 端 ; 
等 待 第 一 个 应 答 ; 
忽略 其 他 应 答 。 


这 样 设计 客户 端 时 ， 当 发 送 请 求 后 ， 所 有 的 服务 端 都 会 收 到 这 个 请 求 ， 并 返回 应 


答 。 如 果菜 个 服务 端 断 开 连接 了 ，ZMQ 可 能 会 将 请 求 发 给 其 他 服务 端 ， 导致 菜 些 服 
务 端 会 收 到 两 次 请 求 。 
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我 们 可 以 为 请 求 进 行 编号 ， 和 忽略 不 匹配 的 应 答 。 我 们 要 对 服务 端 进行 改造 ， 返 回 的 
消息 中 需要 包含 请 求 编号 : flserver2: Freelance server, Model Two in C 


// 自由 者 模式 - 服务 端 - 模型 2 
// 返回 带 有 请 求 编号 的 OK 信息 
#include "czmq.h" 


Ime maina (nt an "chan anova 
{ 
if (argc < 2) { 
printf ("I: syntax: %s <endpoint>\n", argv [0]); 
exit (EXIT_SUCCESS); 


zctx t *ctx = zctx new (); 
void *server - zsocket new (ctx, ZMQ REP); 
zsocket bind (server, argv [1]); 


printf ("I: 服务 已 就 绪 %s\n", argv [1]); 
while (TRUE) ( 
zmsg t *request - zmsg recv (server); 
if (!request) 
break; //. BI 
//. 判断 请 求 内 容 是 否 正 确 
assert (zmsg size (request) -- 2); 


zframe t *address - zmsg pop (request); 
zmsg destroy (&request); 


zmsg t *reply - zmsg new (); 
zmsg add (reply, address); 
zmsg addstr (reply, "OK"); 
zmsg send (&reply, server); 


if (zctx interrupted) 
printf ("W: interruptedin"); 


zctx destroy (&ctx); 
return 0; 


客户 端 代码 : 
flclient2: Freelance client, Model Two in C 
M 


// ”自由 者 模式 - 客户 端 - 模型 2 
// ”使 用 DEALER 套 接 字 发 送 批量 消息 


Z7 
Zinclude "czmq.h" 


// 超时 时 间 
#define GLOBAL_TIMEOUT 2500 


// ”将 客户 端 API 封 装 成 一 个 类 


#ifdef _ cplusplus 
extern "C" f 
Zendif 


// 声明 类 结构 
typedef struct flclient t flclient t; 


ficlrent-r * 
flclient new (void); 
void 
flclient destroy (flclient t **self p): 
void 
flclient connect (flclient t *self, char *endpoint); 
zmsg_t * 
flclient request (flclient t *self, zmsg t **request p); 


Zifdef _ cplusplus 


} 
#endif 


int main (int argc, char *argv []) 
{ 
if (argc == 1) { 
printf ("I: syntax: %s «endpoint» ...n", argv [0]); 
exit (EXIT SUCCESS); 


} 
// 创建 自由 者 模式 客户 端 
flclient t *client = flclient new (); 


// 连接 至 各 个 端点 

int argn; 

for (argn = 1; argn < argc; argn++) 
flclient connect (client, argv [argn]); 


// 发 送 一 组 请 求 ， 并 记录 时 间 
int requests = 10000; 
uint64 t start = zclock time (); 
while (requests--) ( 
zmsg t *request - zmsg new (); 
zmsg addstr (request, "random name"); 
zmsg t *reply - flclient request (client, &request); 
if (!reply) { 
printf ("E: 名 称 解 析 服 务 不 可 用 ， 正 在 退出 \n"); 
break; 


Ny 


} 
zmsg destroy (&reply); 


} 
printf ("平均 请 求 时 间 : «d bn", 
(int) (zclock time () - start) / 10); 


flclient destroy (&client); 
return 0; 


WE 
// AR 


SEUucte fleentat 


ACO E (Ctx: fh ESSE 

void *socket; // ”用 于 和 服务 端 通信 的 DEALER 套 接 字 

size t servers; // 以 连接 的 服务 端 数量 

uint sequence; // 已 发 送 的 请 求 数 
J; 
2 


// Constructor 


Tlclient-^b 
flclient new (void) 


flclient t 
*self; 


self - (flclient t *) zmalloc (sizeof (flclient t)); 
self-»ctx = zctx new (); 

self-»-socket = zsocket new (self-»-ctx, ZMQ DEALER); 
return self; 


E OC VCI REM TIU M CDU MN enc cO MT: 
// VB žk 


void 
flclient destroy (flclient t **self p) 
{ 
assert (self p); 
if (*self-p) { 
flclient t *self - *self p; 
zctx destroy (&self-»ctx); 
free (self); 
*self p - NULL; 


// 连接 至 新 的 服务 端 端点 


void 
flclient connect (flclient t *self, char *endpoint) 
1 
assert (self); 
zsocket connect (self-»socket, endpoint); 
self-»servers--*; 


// -------------- 
// ”发 送 请 求 ， 接 收 应 答 

// 发 送 后 销毁 请 求 

zmsg t * 


flclient request (flclient t *self, zmsg t **request p) 
{ 

assert (self); 

assert (*request p); 

zmsg t *request - *request p; 


// 向 消息 添加 编号 和 空 帧 

char sequence text [10]; 

sprintf (sequence text, "9", ++self->sequence); 
zmsg pushstr (request, sequence text); 

zmsg pushstr (request, '""); 


// 向 所 有 已 连接 的 服务 端 发 送 请 求 
int server; 
for (server = 0; server < self-»servers; server++) ( 
zmsg t *msg - zmsg dup (request); 
zmsg send (&msg, self-»socket); 
} 
// 接收 来 自任 何 服务 端的 应 答 
// ”因为 我 们 可 能 p011 多 次 ， 所 以 每 次 都 进行 计算 
zmsg t *reply = NULL; 
uint64 t endtime = zclock time () + GLOBAL TIMEOUT; 
while (zclock time () < endtime) ( 
zmq pollitem t items [] = ( { self-»socket, 0, ZMQ POLLIN, 
zmq poll (items, 1, (endtime - zclock time ()) * ZMQ POLL ! 
if (items [60].revents & ZMQ POLLIN) { 
// 应答 内 容 是 [empty][sequence] [OK] 
reply = zmsg recv (self-»socket); 
assert (zmsg size (reply) -- 3); 
free (zmsg popstr (reply)); 
char *sequence - zmsg popstr (reply); 
int sequence nbr - atoi (sequence); 
free (sequence); 
if (sequence nbr == self-»sequence) 
break; 


zmsg destroy (request p); 
return reply; 


j 
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几 点 说 明 : 


e 客户 端 被 封装 成 了 一 个 API 类 ， 将 复杂 的 代码 都 包装 了 起 来 。 
e 客户 端 会 在 几 秒 之 后 放弃 寻找 可 用 的 服务 端 ; 
e 客户 端 需要 创建 一 个 合法 的 REP 信 封 ， 所 以 需要 添加 一 个 空 帧 。 


程序 中 ， 客 户 端 发 出 了 1 万 次 名 称 解析 请 求 (虽然 是 假 的 ) ， 并 计算 平均 耗费 时 
间 。 在 我 的 测试 机 上 ， 有 一 个 服务 端 时 ， 耗 时 60 微 妙 ; 三 个 时 80 微 妙 。 


该 模型 的 优 缺点 是 : 


优点 : 简单 ， 容 易 理 解 和 编写 ; 

优点 : 它 工作 迅速 ， 有 重 试 机 制 ; 

缺点 : 占用 了 额外 的 网 络 带 宽 ; 

缺点 : 我 们 不 能 为 服务 端 设置 优先 级 ， 如 主 服务 、 次 服务 等 ; 
缺点 : 服务 端 不 能 同时 处 理 多 个 请 求 。 


Model Three - Complex and Nasty 


批量 发 送 模 型 看 起 来 不 太 丨 实 ， 那 就 让 我 们 来 探索 最 后 这 个 极度 复杂 的 模型 。 很 有 
可 能 在 编写 完 之 后 我 们 又 会 转 而 使 用 批量 发 送 ， 哈 哈 ， 这 就 是 我 的 作风 。 


我 们 可 以 将 客户 端 使 用 的 套 接 字 更 换 为 ROUTER， 让 我 们 能 够 向 特定 的 服务 端 发 送 
请 求 ， 停 止 向 已 死亡 的 服务 端 发 送 请 求 ， 从 而 做 得 尽 可 能 地 智能 。 我 们 还 可 以 将 服 
务 端的 套 接 字 更 换 为 ROUTER， 从 而 突破 单线 程 的 瓶颈 。 


但 是 ， 使 用 ROUTER-ROUTER 套 接 字 连接 两 个 瞬时 套 接 字 是 不 可 行 的 ， 节 点 只 
在 收 到 第 一 条 消息 时 才 会 为 对 方 生成 套 接 字 标 识 。 唯 一 的 方法 是 让 其 中 一 个 节点 使 
用 持久 化 的 套 接 字 ， 上 比较 好 的 方式 是 让 客户 端 知 道 服务 端的 标识 ， 即 服务 端 作为 持 
久 化 的 套 接 字 。 


为 了 避免 产生 新 的 配置 项 ， 我 们 直接 使 用 服务 端的 端点 作为 套 接 字 标识 。 


回想 一 下 ZMQ 套 接 字 标识 是 如 何 工 作 的 。 服 务 端 的 ROUTER 套 接 字 为 自己 设置 一 
个 标识 (在线 定之 前 ) ， 当 客户 端 连 接 时 ， 通 过 一 个 握手 的 过 程 来 交换 双方 的 标 
识 。 客 户 端的 ROUTER 套 接 字 会 先 发 送 一 条 空 消息 ， 服 务 端 为 客户 端 生 成 一 个 随机 
的 UUID。 然 后 ， 服 务 端 会 向 客户 端 发 送 自己 的 标识 。 


这 样 一 来 ， 客 户 端 就 可 以 将 消息 发 送 给 特定 的 服务 端 了 。 不 过 还 有 一 个 问题 : 我 们 
不 知道 服务 端 会 在 什么 时 候 完 成 这 个 握手 的 过 程 。 如 果 服 务 端 是 在 线 的 ， 那 可 能 
毫秒 就 能 完成 。 如 果 不 在 线 ， 那 可 能 需要 很 久 很 久 。 

这 里 有 一 个 矛盾 : 我 们 需要 知道 服务 端 何 时 连接 成 功 且 能 够 开始 工作 。 自 由 者 模式 
不 像 中 间 件 模式 ， 它 的 服务 端 必 须要 先 发 送 请 求 后 才能 的 应 答 。 所 以 在 服务 端 发 送 
消息 给 客户 端 之 前 ， 客 户 端 必须 要 先 请 求 服务 端 ， 这 看 似 是 不 可 能 的 。 
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性 的 心跳 (PING-PONG) 。 当 收 到 应 答 时 ， 就 说 明 对 方 是 在 线 的 。 


下 面 让 我 们 制定 一 个 协议 ， 来 定义 自由 者 模式 是 如 何 传递 这 种 心跳 的 : 
e http://rfc.zeromq.org/spec:10 
实现 这 个 协议 的 服务 端 很 方便 ， 下 面 就 是 经 过 改造 的 echo 服 务 : 


flserver3: Freelance server Model Three in C 


Mi 

// ”自由 者 模式 - RAS - 模型 3 

// ”使 用 ROUTER-ROUTER 套 接 字 进行 通信 ; 单线 程 。 
Mi 


#include "czmq.h" 


ine main (int arge chan ^ardv ii) 


( 


int verbose - (argc » 1 && streq (argv [1], "-v")); 
ZCctx t *ctx = zctx new (); 


// 准备 服务 端 套 接 字 ， 其 标识 和 端点 名 相同 
char *bind endpoint = "tcp://*:5555"; 
char *connect endpoint = "tcp://localhost:5555"; 
void *server = zsocket new (ctx, ZMQ ROUTER); 
zmq setsockopt (server, 
ZMQ IDENTITY, connect endpoint, strien (connect endpoint)), 
zsocket bind (server, bind endpoint); 
printf ("I: 服务 端 已 准备 就 绪 99:sNn", bind endpoint); 


while (!zctx interrupted) ( 
zmsg t *request - zmsg recv (server); 
if (verbose && request) 
zmsg dump (request); 
if (!request) 
break; // PE 


// Frame 0: 客户 端 标识 
// Frame 1: 心跳 ， 或 客户 端 控 制 信息 帧 
// Frame 2: 请 求 内 容 
zframe t *address = zmsg pop (request); 
zframe t *control - zmsg pop (request); 
zmsg t *reply - zmsg new (); 
if (zframe streq (control, "PONG")) 
zmsg addstr (reply, "PONG"); 
else ( 
zmsg add (reply, control); 
zmsg addstr (reply, "OK"); 
} 
zmsg destroy (&request); 
zmsg push (reply, address); 


if (verbose && reply) 
zmsg dump (reply); 
zmsg send (&reply, server); 


if (zctx interrupted) 
printf ("W: TBíNn"); 


zctx destroy (&ctx); 
return 0; 


} 


«| m 











但 是 ， 自 由 者 模式 的 客户 端 会 变 得 大 一 写 。 为 了 清晰 期 间 ， 我 们 将 其 拆 分 为 两 个 类 
来 实现 。 首 先是 在 上 层 使 用 的 程序 : 


flclient3: Freelance client, Model Three in C 


Wd 
VA 
VM 
"n 
// 


自由 者 模式 - 客户 端 - 模型 3 
使 用 flcliapi 类 来 封装 自由 者 模式 


直接 编译 ， 不 建 类 库 


Zinclude "flcliapi.c" 


int main (void) 


( 


// 创建 自由 者 模式 实例 
flcliapi t *client = flcliapi new (); 


// ”链接 至 服务 器 端点 

flcliapi connect (client, "tcp://localhost:5555"); 
flcliapi connect (client, "tcp://localhost:5556"); 
flcliapi connect (client, "tcp://localhost:5557"); 


// 发 送 随 机 请 求 ， 计算 时 间 
int requests = 1000; 
uint64 t start = zclock time (); 
while (requests--) ( 
zmsg t *request - zmsg new (); 
zmsg addstr (request, "random name"); 


zmsg t *reply - flcliapi request (client, &request); 


if (!reply) { 
printf ("E: 名 称 解 析 服 务 不 可 用 ， 正 在 退出 \n"); 
break; 


} 
zmsg destroy (&reply); 


Ji 
printf ("平均 执行 时 间 : %d usecNn", 
(int) (zclock time () - start) / 10); 


flcliapi destroy (&client); 
return 0; 


下 面 是 该 模式 复杂 的 实现 过 程 : 


flcliapi: Freelance client API in C 


flcliapi - Freelance Pattern agent class 


Model 3: uses ROUTER socket to address specific services 


Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 


This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 
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This is free software; you can redistribute it and/or modify il 
the terms of the GNU Lesser General Public License as publishe« 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 


This software is distributed in the hope that it will be usefu: 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the G! 
Lesser General Public License for more details. 


You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http://www.gnu.org/licenses/». 


Zinclude "flcliapi.h" 


7 A 


请 求 超时 时 间 


Zdefine GLOBAL TIMEOUT 3000 // msecs 


// 


心跳 间隔 


Zdefine PING INTERVAL 2000 // msecs 


// 判定 服务 死亡 的 时 间 

Zdefine SERVER TTL 6000 // msecs 

// 一 一 
// 同步 部 分 ， 在 应 用 程序 层面 运行 

// --------------------------------------------------------------. 
// ”类 结构 


struct o sblclraprcbot 


Pr 
ph 


zcbxebo CENX, fl JEPE 
void *pipe; // 用 于 和 主线 程 通信 的 套 接 字 


这 是 运行 后 台 代 理 程序 的 线程 


static void flcliapi agent (void *args, zctx t *ctx, void *pipe); 


// 
7 


构造 函数 


DliclrapESt 
flcliapi new (void) 


( 


flcliapi _t 
*self; 


self = (flcliapi t *) zmalloc (sizeof (flcliapi t)); 


self-»ctx = zctx new (); 
self-»pipe = zthread fork (self->ctx, flcliapi agent, NULL); 


可 靠 的 请 求 -应 答 模式 238 


return self; 


void 
ticliapi-destroy (ficliapi t -self p) 
{ 
assert (self p); 
Xf (*self p) 4 
flcliapi t *self - *self p; 
zctx destroy (&self-»ctx); 
free (self); 
*self p - NULL; 


} 
AT 


// ”连接 至 新 服务 器 端点 


// 消息 内 容 : [CONNECT] [endpoint] 


void 
flcliapi connect (flcliapi t *self, char *endpoint) 
{ 

assert (self); 

assert (endpoint); 

zmsg t *msg = zmsg new (); 

zmsg addstr (msg, "CONNECT"); 

zmsg addstr (msg, endpoint); 

zmsg send (&msg, self-»pipe); 

zclock sleep (100); // 等 待 连接 


Dc" 
// 发 送 并 销毁 请 求 ， 接 收 应 答 


Zmsg-t ^ 
flcliapi request (flcliapi t *self, zmsg t **request p) 
{ 

assert (self); 

assert (*request p); 


zmsg pushstr (*request p, "REQUEST"); 
zmsg send (request p, self-»pipe); 
zmsg t *reply - zmsg recv (self-»pipe); 
if (reply) { 

char *status - zmsg popstr (reply); 

if (streq (status, "FAILED")) 

zmsg destroy (&reply); 
free (status); 


j 


return reply; 


Re 
// 单个 服务 端 信息 


typedef struct ( 


char *endpoint; // 服务 端 端点 / 套 接 字 标 识 
uint alive; // G4 

int64 t ping at; // 下 一 次 心跳 时 间 
int64 t expires; // 过 期 时 间 


} server t; 


server t * 
server new (char *endpoint) 


{ 
server t *self = (server t *) zmalloc (sizeof (server t)); 
self-»-endpoint = strdup (endpoint); 
self-»alive = 0; 
self-»ping at = zclock time () + PING INTERVAL; 
self-»expires = zclock time () + SERVER TTL; 
return self; 
} 
void 
server destroy (server t **self p) 
{ 
assert (self p); 
if self p) { 
server t *self - *self p; 
free (self-»endpoint); 
free (self); 
*self p - NULL; 
} 
} 
TME 


server_ping (char *key, void *server, void *socket) 


server_t *self = (server_t *) server; 
if (zclock_time () >= self->ping at) { 

zmsg_t *ping = zmsg_new (); 

zmsg_addstr (ping, self->endpoint); 

zmsg_addstr (ping, "PING"); 

zmsg send (&ping, socket); 

self-»-ping at = zclock time () + PING INTERVAL; 
} 


(exem) (OP 


ame 


server tickless (char *key, void *server, void *arg) 


{ 
server t *self = (server t *) server; 
uint64 t *tickless (uint64 t *) arg; 
if (*tickless » self-»ping at) 
*tickless - self-»ping at; 
return 0; 
} 
// --------------- 


typedef struct { 


AOK E Ctx; VE Se 
void *pipe; // 用 于 应 用 程序 通信 的 套 接 字 
void *router; // ”用 于 服务 端 通信 的 套 接 字 
zhash t *servers; // 已 连接 的 服务 端 
zlisb*t e actives; // 在 线 的 服务 端 
uint sequence; // 请求 编 号 
zmsg_t *request; // 当前 请 求 
zmsg t *reply; // ”当前 应 答 
int64 t expires; // 请求 过 期 时 间 

) agent t; 

agent t * 

agent new (zctx t *ctx, void *pipe) 

{ 


agent t *self = (agent t *) zmalloc (sizeof (agent t)); 
self-»ctx = ctx; 

self->pipe = pipe; 

self->router = zsocket new (self->ctx, ZMQ ROUTER); 
self-»servers zhash new (); 

self-»actives zlist new (); 

return self; 


j 


void 
agent destroy (agent t **self p) 
i 
assert (self p); 
if (*self p) { 
agent_t *self = *self_p; 
zhash destroy (&self->servers); 
zlist destroy (&self-»actives); 
zmsg destroy (&self-»request); 
zmsg destroy (&self-»reply); 
free (self); 
*self p - NULL; 


static void 
s server free (void *argument) 


{ 
server t *server = (server t *) argument; 
server destroy (&server); 
} 
void 
agent control message (agent t *self) 
t 
zmsg t *msg - zmsg recv (self-»pipe); 
char *command - zmsg popstr (msg); 
if (streq (command, "CONNECT")) { 
char *endpoint - zmsg popstr (msg); 
printf ("I: connecting to 9*s...Nn", endpoint); 
int rc = zmq connect (self-»router, endpoint); 
assert (rc -- 0); 
server t *server - server new (endpoint); 
zhash insert (self-»servers, endpoint, server); 
zhash freefn (self-»-servers, endpoint, s server free); 
zlist append (self-»actives, server); 
server-»ping at = zclock time () + PING INTERVAL; 
server-»-expires = zclock time () + SERVER TTL; 
free (endpoint); 
} 
else 
if (streq (command, "REQUEST")) ( 
assert (!self-»request); // 遵循 请 求 - 应 答 循环 
// 将 请 求 编 号 和 空 帧 加 入 消息 顶部 
char sequence text [10]; 
sprintf (sequence text, "9", -tself-»-sequence); 
zmsg pushstr (msg, sequence text); 
// ”获取 请 求 消息 的 所 有 权 
self->request = msg; 
msg = NULL; 
// ”设置 请 求 过 期 时 间 
self->expires = zclock time () + GLOBAL TIMEOUT; 
} 
free (command); 
zmsg destroy (&msg); 
} 
void 
agent router message (agent t *self) 
{ 


zmsg t *reply = zmsg_recv (self-»router); 


// 第 一 帧 是 应 答 的 服务 端 标识 
char *endpoint = zmsg popstr (reply); 
server t *server = 


(server t *) zhash lookup (self-»servers, endpoint); 
assert (server); 
free (endpoint); 
if (!server-»alive) ( 

zlist append (self-»actives, server); 

server-»alive = 1; 
y . 
server->ping_at 
server->expires 


zclock_time () + PING_INTERVAL; 
zclock_time () + SERVER_TTL; 


char *sequence = zmsg_popstr (reply); 

if (atoi (sequence) == self->sequence) { 
zmsg_pushstr (reply, "OK"); 
zmsg send (&reply, self-»pipe); 
zmsg destroy (&self-»request); 


ke EAE CE EE icr: 
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j 


else 
zmsg destroy (&reply); 


/ 
IE FOSE 
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static void 
flcliapi agent (void *args, zctx t *ctx, void "pipe) 
t 


agent t *self - agent new (ctx, pipe); 


zmq pollitem t items [] = ( 
{ self-»pipe, ©, ZMQ POLLIN, © }, 
{ self-»router, ©, ZMQ POLLIN, 0 } 
J; 
while (!zctx_interrupted) { 
// 计算 超时 时 间 
uint64 t tickless = zclock time () + 1000 * 3600; 
if (self-»request 
&&  tickless > self-»expires) 
tickless - self-»expires; 
zhash foreach (self-»servers, server tickless, &tickless); 


int rc - zmq poll (items, 2, 

(tickless - zclock time ()) * ZMQ POLL MSEC); 
(ne = 2T) 

break; // kTfzxwx£ÉakXH 


if (items [60].revents & ZMQ POLLIN) 
agent control message (self); 


if (items [i].revents & ZMQ POLLIN) 
agent router message (self); 


7 / JR © 处 H- I 下 了 去 来 JA EL E 2: 2A RFR Aa HmEÉa4HB 2—IÍiD 
如 果 我 们 需要 处 理 HER t MPALALCSAÉG | MT A 83 JR. 2 55 


if (self- pins E 
if (zclock time () >= self-»expires) ( 
// 请 求 超时 
zstr send (self-»pipe, "FAILED"); 
zmsg destroy (&self-»request); 


} 
else ( 
// ”了 寻找 可 用 的 服务 端 
while (zlist. size (self-»actives)) ( 
server t *server - 
(server t *) zlist first (self-»actives); 
if (zclock time () >= server-»expires) ( 
zlist pop (self-»actives); 
server-»alive - 0; 


} 
else ( 
zmsg t *request - zmsg dup (self-»request), 
zmsg pushstr (request, server-»endpoint); 
zmsg send (&request, self-»router); 
break; 
} 
} 
} 
} 
ZY 





zhash foreach (self->servers, server ping, self-»router); 


agent destroy (&self); 





这 组 API 使 用 了 较为 复杂 的 机 制 ， 我 们 之 前 也 有 用 到 过 


异步 后 台 代 理 


客户 端 API 由 两 部 分 组 成 : 同步 的 flcliapi 类 ， 和 运行 于 应 用 程序 线程 ; 异步 的 agent 
类 ， 运 行 于 后 台 线 程 。 liap 和 agent 关 通过 一 个 nproc 套 接 字 互相 通信 。 所 有 和 
ZMQ 相 关 的 内 容 都 封装 中 agent 类 实质 上 是 作为 一 个 迷你 的 代理 程序 在 运 
行 ， 负 责 在 后 台 与 服务 通信 ， 只 要 我 们 发 送 请 求 ， 它 就 会 设法 连接 一 个 服务 
器 来 处 理 请 求 。 


连接 等 待机 制 


ROUTER 套 接 字 的 特点 之 一 是 会 直接 丢弃 无 法 路 由 的 消息 ， 这 就 意味 着 当 与 服务 器 
建立 了 ROUTER-ROUTER 连 接 后 ， a 消息， 该 消息 是 会 丢失 的 。 
Mus dm ARCU M 消息 。 之 后 的 通信 中 ， 由 于 服务 端 套 接 字 是 持久 
的 ， 客 户 端 就 不 再 丢弃 消息 


Ping silence 


OMQ will queue messages for a dead server indefinitely. So if a client repeatedly 
PINGs a dead server, when that server comes back to life it'll get a whole bunch 
of PING messages all at once. Rather than continuing to ping a server we know is 
offline, we count on OMQ's handling of durable sockets to deliver the old PING 
messages when the server comes back online. As soon as a server reconnects, 
it'll get PINGs from all clients that were connected to it, it'll PONG back, and those 
clients will recognize it as alive again. 


调整 轮 询 时 间 

在 之 前 的 示例 程序 中 ， 我 们 一 般 会 为 轮 询 设 置 固定 的 超时 时 间 (如 1 秒 ) ， 这 种 做 
法 虽然 简单 ， 但 是 对 于 用 电 较 为 敏感 的 设备 来 说 (如 笔记 本 电脑 或 手机 ) 唤醒 CPU 
是 需要 额外 的 电力 的 。 所 以 ， 为 了 完美 也 好 ， 好 玩 也 好 ， 我 们 这 里 调整 了 轮 询 时 
间 ， 将 其 设置 为 到 达 过 期 时 间 时 才 超 时 ， 这 样 就 能 节省 一 部 分 轮 询 次 数 了 。 我 们 可 
以 将 过 期 时 间 放 入 一 个 列表 中 存储 ， 方 便 查 询 。 


` 


K 


总 结 


A 


这 一 章 中 我 们 看 到 了 很 多 可 靠 的 请 求 -应 答 机 制 ， 每 种 机 制 都 有 其 优 劣 性 。 大 部 分 示 
例 代 码 是 可 以 直接 用 于 生产 环境 的 ， 不 过 还 可 以 进一步 优化 。 有 两 个 模式 会 比较 典 
型 : 使 用 了 中 间 件 的 管家 模式 ， 以 及 未 使 用 中 间 件 的 自由 者 模式 。 


第 五 章 高 级 发 布 -订阅 模式 


第 三 章 和 第 四 章 讲述 了 ZMQ 中 请 求 -应 答 模 式 的 一 些 高 级 用 法 。 如 果 你 已 经 能 够 彻 
底 理 解 了 ， 那 我 要 说 声 茶 喜 。 这 一 章 我 们 会 关注 发 布 -订阅 模式 ， 使 用 上 层 模 式 封 
装 ， 提 升 ZMQ 发 布 -订阅 模式 的 性 能 、 可 靠 性 、 状 态 同步 及 安全 机 制 。 


本 章 涉及 的 内 容 有 : 


e 处 理 慢 订 阅 者 (自杀 的 蜗牛 模式 ) 
e 高 速 订阅 者 (黑箱 模式 ) 
e 构建 一 个 共享 键 值 缓存 (克隆 模式 ) 


全 测 慢 订 阅 者 (自杀 的 蜗牛 模式 ) 


在 使 用 发 布 -订阅 模式 的 时 候 ， 最 常见 的 问题 之 一 是 如 何 处 理 响应 较 慢 的 订阅 者 。 理 
想 状 况 下 ， 发 布 者 能 以 全 速 发 送 消 息 给 订阅 者 ， 但 现实 中 ， 订 阅 者 会 需要 对 消息 做 
较 长 时 间 的 处 理 ， 或 者 写 得 不 够 好 ， 无 法 跟 上 发 布 者 的 脚步 。 


如 何 处 理 慢 订 阅 者 ? 最 好 的 方法 当然 是 让 订阅 者 高 效 起 来 ， 不 过 这 需要 额外 的 工 
作 。 以 下 是 一 些 处 理 慢 订阅 者 的 方法 : 


e 在 发 布 者 中 贮存 消息 。 这 是 Gmail 的 做 法 ， 如 果 过 去 的 几 小 时 里 没有 阅读 邮件 
的 话 ， 它 会 把 邮件 保存 起 来 。 但 在 高 吞吐 量 的 应 用 中 ， 发 布 者 堆积 消息 往往 会 
导致 内 存 溢 出 ， 最 终 崩 溃 。 特 别 是 当 同 是 有 多 个 订阅 者 时 ， 或 者 无 法 用 磁盘 来 
做 一 个 缓冲 ， 情 况 就 会 变 得 更 为 复杂 。 


e 在 订阅 者 中 贮存 消息 。 这 种 做 法 要 好 的 多 ， 其 实 ZMQ 默 认 的 行为 就 是 这 样 的 。 
如 果 非 得 有 一 个 人 会 因为 内 存 溢 出 而 崩溃 ， 那 也 只 会 是 订阅 者 ， 而 非 发 布 者 ， 
这 手 公 平 的 。 然 而 ， 这 种 做 法 只 对 瞬间 消息 量 很 大 的 应 用 才 合 理 ， 订 阅 者 只 是 
一 时 处 理 不 过 来 ， 但 最 终 会 赶 上 进度 。 但 是 ， 这 还 是 没有 解决 订阅 者 速度 过 慢 
的 问题 。 


e 暂停 发 送 消 息 。 这 也 是 Gmail 的 做 法 ， 当 我 的 邮箱 容量 超过 7.554GB 时 ， 新 的 
邮件 就 会 被 Gmail 拒 收 或 丢弃 。 这 种 做 法 对 发 布 者 来 说 很 有 益 ，ZMQ 中 若 设 置 
T HA (HWM) ， 其 默认 行为 也 就 是 这 样 的 。 但 是 ， 我 们 仍 不 能 解决 慢 订 阅 
者 的 问题 ， 我 们 只 是 让 消息 变 得 断断续续 而 已 。 


e 斯 开 与 满 订 阅 者 的 连接 。 这 是 hotmail 的 做 法 ， 如 果 连 续 两 周 没 有 登录 ， 它 就 会 
断 开 ， 这 也 是 为 什么 我 正在 使 用 第 十 五 个 hotmail 邮 箱 。 不 过 这 种 方案 在 ZMQ 
里 是 行 不 通 的 ， 因 为 对 于 发 布 者 而 言 ， 订 阅 者 是 不 可 见 的 ， 无 法 做 相应 处 理 。 


看 来 没有 一 种 经 典 的 方式 可 以 满足 我 们 的 需求 ， 所 以 我 们 就 要 进行 创新 了 。 我 们 可 
以 让 订阅 者 自杀 ， 而 不 仅仅 是 断 开 连 接 。 这 就 是 “自杀 的 蜗牛 "模式 。 当 订阅 者 发 现 
自身 运行 得 过 慢 时 (对 于 慢 速 的 定义 应 该 是 一 个 配置 项 ， 当 达到 这 个 标准 时 就 大 声 
地 喊 出 来 吧 ， 让 程序 员 知 道 ) o^ CARRE’ HUBER A 


订阅 者 如 何 检测 自身 速度 过 慢 呢 ? 一 种 方式 是 为 消 息 进 行 编号 ， 并 在 发 布 者 端 设置 
阅 值 。 当 订阅 者 发 现 消 息 编号 不 连续 时 ， 它 就 知道 事情 不 对 劲 了 。 这 里 的 阅 值 就 是 
订阅 者 自杀 的 值 。 


这 种 方案 有 两 个 问题 ; 一 、 如 果 我 们 连接 的 多 个 发 布 者 ， cdm e 

FR? 解决 方法 是 为 每 一 个 发 布 者 设 定 一 个 唯一 的 编号 ， 作 为 消息 Oe 
二 、 eA SUBSRIBE 选 项 对 消息 进行 了 过 滤 ， 那 么 我 们 精心 设计 
的 消息 编号 机 制 就 毫 无 用 处 了 。 


有 些 情形 不 会 进行 消息 的 过 滤 ， 所 以 消息 编号 还 是 行 得 通 的 。 不 过 更 为 普遍 的 解决 
方案 是 ， 发 布 者 为 消息 标注 时 间 戳 ， 当 订阅 者 收 到 消息 时 会 检测 这 个 时 间 惟 ， 如 果 
其 差别 达到 某 一 个 值 ， 就 发 出 警报 并 自杀 。 


当 订 阅 者 有 自身 的 客户 端 或 服务 协议 ， 需 要 保证 最 大 延迟 时 间 时 ， 自 杀 的 蜗牛 模式 
会 很 合适 。 撤 销 一 个 订阅 者 也 许 并 不 是 最 周全 的 方案 ， 但 至 少 不 会 引发 后 续 的 问 
题 。 如 果 订 阅 者 收 到 了 过 时 的 消息 ， 那 可 能 会 对 数据 造成 进一步 的 破坏 ， 而 且 很 难 
被 发 现 。 


以 下 是 自杀 的 蜗牛 模式 的 最 简 实 现 : 


suisnail: Suicidal Snail in C 


// 

// ”自杀 的 蜗牛 模式 

7 d 

Zinclude "czmq.h" 

// ------------- 
// 该 订阅 者 会 人 

O BAR AHEXS & 

// 当 发 现 收 到 的 消息 超过 1 秒 的 延 巡 时 ， 就 自杀 。 


#define MAX ALLOWED DELAY 1000 // 毫秒 


static void 

subscriber (void *args, zctx t *ctx, void "pipe) 

{ 
// A 
void *subscriber = zsocket new (ctx, ZMQ SUB); 
zsocket connect (subscriber, "tcp://localhost:5556"); 


// 获取 并 处 理 消息 
while (1) ( 
char *string - zstr recv (subscriber); 
int64 t clock; 
int terms = sscanf (string, "96" PRId64, &clock); 
assert (terms == 1); 
free (string); 


// ”自杀 逻辑 
if (zclock time () - clock > MAX ALLOWED DELAY) { 
fprintf (stderr, "E: 订阅 者 无 法 跟 进 ， 取 消 中 \n")，; 


break; 


} 
//. X4F—5E HR 
zclock sleep (1 + randof (2)); 


} 
zstr send (pipe, "订阅 者 中 止 "); 


"Enc T" UU 
// ERA EET AiÉ—AISE B SU 9 Ó A 


static void 
publisher (void *args, zctx t *ctx, void *pipe) 


{ 
// 准备 发 布 者 
void *publisher = zsocket new (ctx, ZMQ PUB); 
zsocket bind (publisher, "tcp://*:5556"); 
while (1) { 
// ”发 送 当 前 时 间 (毫秒) 给 订阅 者 
char string [20]; 
sprintf (string, "9?" PRId64, zclock time ()); 
zstr send (publisher, string); 
char *signal - zstr recv nowait (pipe); 
if (signal) { 
free (signal); 
break; 
zclock sleep (1); // 等 待 1 毫秒 
} 
} 


// 下 面 的 代码 会 局 动 一 个 订阅 者 和 一 个 发 布 者 ， 当 订阅 者 死亡 时 停止 运行 
int main (void) 


Zctx t *ctx - zctx new (); 

void *pubpipe - zthread fork (ctx, publisher, NULL); 
void *subpipe - zthread fork (ctx, subscriber, NULL); 
free (zstr recv (subpipe)); 

zstr send (pubpipe, "break"); 

zclock sleep (1009); 

zctx destroy (&ctx); 

[euren (8)P 


EE = 
几 点 说 明 : 
e 示例 程序 中 的 消息 包含 了 系统 当前 的 时 间 惟 (毫秒 ) 。 在 现实 应 用 中 ， 你 应 该 





使 用 时 间 改 作为 消息 头 ， 并 提供 消息 内 容 。 
e 示例 程序 下 人 o 在 现实 应 用 中 ， 他 们 
应 该 是 两 个 不 同 的 进程 。 示 例 中 这 么 做 只 是 为 了 演示 的 方便 


高 速 订阅 者 (黑箱 模式 ，) 


发 布 -订阅 模式 的 一 个 典型 应 用 场景 a luu de M 
上 收集 到 的 数据 ， 可 以 在 证 券 交 萄 系统 上 设置 一 个 发 布 者 ， 获 取 价 格 信息 ， 并 发 送 
Nn iR chien c 
的 量 ， 那 我 们 就 应 该 使 用 可 靠 的 广播 协议 ， 如 pgm。 


假设 我 们 的 发 布 者 每 秒 产 生 10 万 条 100 个 字 节 的 消息 。 在 别 除了 不 需要 的 市 场 信息 
后 ， 这 个 比率 还 是 比较 合理 的 。 现 在 我 们 需要 记录 一 天 的 数据 (8 小 时 约 有 
250GB) ， 再 将 其 传 入 一 个 模拟 网 络 ， 即 一 组 订阅 者 。 虽 然 10 万 条 数据 对 ZMQ 来 
说 很 容易 处 理 ， 但 我 们 需要 更 高 的 速度 


假设 我 们 有 多 台 机 器 ， 一 台 做 发 布 者 ， 其 他 的 做 订阅 者 。 这 些 机 器 都 是 8 核 的 ， 发 
布 者 那 台 有 12 核 。 


在 我 们 开始 发 布 消息 时 ， 有 两 点 需要 注意 : 


1. 即便 只 是 处 理 很 少 的 数据 ， 订 阅 者 仍 有 可 能 跟 不 上 发 布 者 的 速度 ; 
2， 当 处 理 到 6M/s 的 数据 量 时 ， 发 布 者 和 订阅 者 都 有 可 能 达到 极限 。 


， 我 们 需要 将 订阅 者 设计 为 一 种 多 线程 的 处 理 程 序 ， 这 样 我 们 就 能 在 一 个 线程 
E 息 ， 使 用 其 他 线程 来 处 理 消息 。 一 般 来 说 ， 我 们 对 每 种 消息 的 处 理 方 式 都 
是 不 同 的 。 这 样 一 来 ， 订 阅 者 可 以 对 收 到 的 消息 进行 一 次 过 滤 ， ， 如 根据 头 信 息 来 判 

别 。 当 消息 满足 某 些 条 件 ， 订 阅 者 会 将 消息 交 给 worker 处 理 。 用 ZMQ 的 语言 来 说 ， 
订阅 者 会 将 消息 转发 给 worker 来 处 理 。 


这 样 一 来 ， 订 阅 者 看 上 去 就 像 是 一 个 队列 装置 ， 我 们 可 以 用 各 种 方式 去 连接 队列 装 
置 和 worker。 如 我 们 建立 单 向 的 通信 ke E 同 的 ， 可 以 使 用 PUSH 和 
PULL 套 接 字 ， 分 发 的 工作 就 交 给 ZMQ 吧 。 这 是 最 简单 也 是 最 快速 的 方式 : 
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Fast box 


PULL PULL PULL 
Figurel — Simple Black Box Pattern 


订阅 者 和 发 布 者 之 间 的 通信 使 用 TCP 或 PGM 协 议 ， 订 阅 者 和 worker 的 通信 由 于 是 在 
同一 个 进程 中 完成 的 ， 所 以 使 用 inproc 协 议 。 


下 面 我 们 看 看 如 何 突破 瓶颈 。 由 于 订阅 者 是 单线 程 的 ， 当 它 的 CPU 占用 率 达 到 
100% 时 ， 它 无 法 使 用 其 他 的 核心 。 单 线程 程序 总 是 会 遇 到 瓶颈 的 ， 不 管 是 2M、6M 
还 是 更 多 。 我 们 需要 将 工作 量 分 配 到 不 同 的 线程 中 去 ， 并 发 地 执行 。 


很 多 高 性 能 产品 使 用 的 方案 是 分 片 ， 就 是 将 工作 量 拆 分 成 独立 并 行 的 流 。 如 ， 一 半 
的 专题 数据 由 一 个 流 媒 体 传 输 ， 另 一 半 由 另 一 个 流 媒 体 传 输 。 我 们 可 以 建立 更 多 的 
流 媒 体 ， 但 如 果 CPU 核 心 数 不 变 ， 那 就 没有 必要 了 。 让 我 们 看 看 如 何 将 工作 量 分 片 
为 两 个 流 : 
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Figure2 一 Mad Black Box Pattern 
要 让 两 个 流 全 速 工作 ， 需 要 这 样 配置 ZMQ : 


使 用 两 个 |/O 线 程 ， 而 不 是 一 个 ; 

使 用 两 个 独立 的 网 络 接口 ; 

每 个 I/D 线 程 绑 定 至 一 个 网 络 接口 ; 

两 个 订阅 者 线程 ， 分 别 绑 定 至 一 个 核心 ; 

使 用 两 个 SUB 套 接 字 ; 

剩余 的 核心 供 worker 使 用 ; 

worker 线 程 同时 绑 定 至 两 个 订阅 者 线程 的 PUSH 套 接 字 。 


创建 的 线程 数量 应 和 CPU 核心 数 一 致 ， 如 果 我 们 建立 的 线程 数量 超过 核心 数 ， 那 其 
处 理 速度 只 会 减少 。 另 外 ， 开 放 多 个 |/O 线 程 也 是 没有 必要 的 。 


共享 键 值 绥 存 (克隆 模式 ) 


发 布 -订阅 模式 和 无 线 电 广播 有 些 类 似 ， 在 你 收听 之 前 发 送 的 消息 你 将 无 从 得 知 ， 收 
到 消息 的 多 少 又 会 取决 于 你 的 接收 能 力 。 让 人 吃惊 的 是 ， 对 于 那些 追求 完美 的 工程 
师 来 说 ， 这 种 机 器 恰恰 符合 他 们 的 需求 ， 且 广 为 传 播 ， 成 为 现实 生活 中 分 发 消息 的 
最 佳 机 制 。 想 想 非 死 不 可 、 推 竺 、BBS 新 闻 、 体 育 新 闻 等 应 用 就 知道 了 。 

但 是 ， 在 很 多 情形 下 ， 可 靠 的 发 布 -订阅 模式 同样 是 有 价值 的 。 正 如 我 们 讨论 请 求 - 


应 答 模式 一 样 ， 我 们 会 根据 "故障 "来 定义 "可靠 性”， 下 面 几 项 便 是 发 布 -订阅 模式 中 
可 能 发 生 的 故障 : 


vus oue HR Te fos 
e 订阅 者 速度 太 慢 ， 同 样 会 丢失 消息 
。 订 阅 者 可 能 会 断 开 ， 其 间 的 消息 也 会 丢失 。 


还 有 一 些 情况 我 们 碰 到 的 比较 少 ， 但 不 是 没有 : 


订阅 者 崩溃 、 重 启 ， 从 而 丢失 了 所 有 已 收 到 的 消息 

订阅 者 处 理 消息 的 速度 过 i et i ; 
因 网 络 过 载 而 丢失 消息 (特别 是 PGM 协 议 下 的 连接 ) ; 

网 速 过 慢 ， 消 息 在 发 布 者 处 溢出 ， 从 而 崩溃 。 


其 实 还 会 有 其 他 出 错 的 情况 ， 只 是 以 上 这 些 在 现实 应 用 中 是 比较 典型 的 。 


我 们 已 经 有 方法 解决 上 面 的 某 些 问题 了 ， 比 如 对 于 慢 速 订阅 者 可 以 使 用 自杀 的 蜗牛 
模式 。 但 是 ， 对 于 其 他 的 问题 ， 我 们 最 后 能 有 一 个 可 复 用 的 框架 来 编写 可 靠 的 发 布 - 
订阅 模式 。 


难点 在 于 ， 我 们 并 不 知道 目标 应 用 程序 会 怎样 处 理 这 些 数据 。 它 们 会 进行 过 滤 、 
处 理 一 部 分 消息 吗 ? 它们 是 否 Doa di Le yere 
发 给 其 下 的 worker 进 行 处 理 ? 需要 考虑 的 情况 实在 太 多 了 ， 每 种 情况 都 有 其 所 谓 的 
可 靠 性 。 


所 以 ， 我 们 将 问题 抽象 出 来 ， (92 种 应 用 程序 使 用 。 这 种 抽象 应 用 我 们 称 之 为 共享 
的 键 值 缓存 ， 它 的 功能 是 通过 唯一 的 键 名 存储 二 进 制 数据 块 。 


不 要 将 这 个 抽象 应 用 和 分 布 式 哈 希 表 混 淆 起 来 ， 它 是 用 来 解决 节 点 在 分 布 式 网 络 中 
相连 接 的 问题 的 ;也 不 要 和 分 布 式 键 值 表 混 淆 ， 它 更 像 是 一 个 NoSQL 数 据 库 。 我 们 
要 建立 的 应 用 是 将 内 存 中 的 状态 可 靠 地 传递 给 一 组 客户 端 ， 它 要 做 到 的 是 : 


客户 端 可 以 随时 加 入 网 络 ， 并 获得 服务 端 当 前 的 状态 ; 

任何 客户 端 都 可 以 改变 键 值 缓存 〈 插 入 、 更 新 、 删 除 ) ; 

将 这 种 变化 以 最 短 的 延迟 可 靠 地 传达 给 所 有 的 客户 端 ; 

能 够 处 理 大 量 的 客户 端 ， 成 百 上 千 。 

克隆 模式 的 要 点 在 于 客户 端 会 反 过 来 和 服务 端 进行 通信 ， 这 在 简单 的 发 布 -订阅 模式 


中 并 不 常见 。 所 以 我 这 里 使 用 “服务 端 "、“ 客 户 端 2 ia T 
词 。 我 们 会 使 用 发 布 -订阅 模式 作为 核心 消 RA 需要 夹杂 其 他 模式 。 


分 发 键 值 更 新 事件 


我 们 会 分 阶段 实施 克隆 模式 。 首先 ， 我 们 看 看 如 何 从 服务 器 发 送 键 值 更 新 事件 给 
有 的 客户 端 。 我 们 将 第 一 章 中 使 用 的 天 气 服 务 模型 进行 改造 ， e 
信息 ， 并 让 客户 端 使 用 哈 希 表 来 保存 : 





Server 
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Figure3 — Simplest Clone Model 
以 下 是 服务 端 代码 : 


clonesrv1: Clone server Model One in C 


JL 
// 克隆 模式 服务 端 模型 
7/ Jl 


// 证 我 们 直接 编译 ， 不 生成 类 库 
Zinclude "kvsimple ,Cn 


int main (void) 


{ 

// ”准备 上 下 文 和 PUB 套 接 字 

zctx t *ctx = zctx new (); 

void *publisher - zsocket new (ctx, ZMQ PUB); 

zsocket bind (publisher, "tcp://*:5556"); 

zclock sleep (200); 

zhash t *kvmap - zhash new (); 

int64 t sequence - 0; 

srandom ((unsigned) time (NULL)); 

while (!zctx interrupted) ( 
// 使 用 键 值 对 分 发 消息 
kvmsg t *kvmsg = kvmsg new (--sequence); 
kvmsg fmt key (kvmsg, "9d", randof (10000)); 
kvmsg. fmt body (kvmsg, "9d", randof (1000000 ) ) ， 
kvmsg send (kvmsg, publisher); 
kvmsg store (&kvmsg, kvmap); 

} 

printf ("已 中 止 \n 已 发 送 %d 条 消息 \n"，(int) sequence); 

zhash_destroy (&kvmap); 

zctx destroy (&ctx); 

faetum 

} 
以 下 是 客户 端 代 码 : 


clonecli1: Clone client, Model One in C 


HY 
// ”克隆 模式 客户 端 模型 
/YY 


// 让 我 们 直接 编译 ， 不 生成 类 库 
Zinclude "kvsimple.c" 


int main (void) 


1 
// 准备 上 下 文 和 SUB 套 接 字 
zctx t *ctx = zctx new (); 
void *updates - zsocket new (ctx, ZMQ SUB); 
zsocket connect (updates, "tcp://localhost:5556"); 
zhash t *kvmap - zhash new (); 
int64 t sequence - 0; 
while (TRUE) ( 
kvmsg t *kvmsg - kvmsg recv (updates); 
if (!kvmsg) 
break; // PE 
kvmsg store (&kvmsg, kvmap); 
sequence-t-; 
} 
printf ("已 中 断 \n 收 到 «d 条 消息 \n"，(int) sequence); 
zhash destroy (&kvmap); 
zctx destroy (&ctx); 
return 0; 
} 
几 点 说 明 : 


e 所 有 复杂 的 工作 都 在 kvmsg 类 中 完成 了 ， 这 个 类 能 够 处 理 键 值 对 类 型 的 消息 对 
象 ， 其 实质 上 是 一 个 ZMQ 多 帧 消息 ， 共 有 三 帧 : 键 (ZMQ 字 符 串 ) 、 编 号 
(64 位 ， 按 字 节 顺序 排列 ) 、 二 进 制 体 (保存 所 有 附加 信息 ) 。 

e 服务 端 随机 生成 消息 ， 使 用 四 位 数 作为 键 ， 这 样 可 以 模拟 大 量 而 不 是 过 量 的 哈 
AX (1 万 个 条 目 ) 。 

e 服务 端 绑 定 套 接 字 后 会 等 待 200 毫 秒 ， 以 避免 订阅 者 连接 延迟 而 丢失 数据 的 问 
题 。 我 们 会 在 后 面 的 模型 中 解决 这 一 点 。 

e 我 们 使 用 “发 布 者 "和 “订阅 者 "来 命名 程序 中 使 用 的 套 接 字 ， 这 样 可 以 避免 和 后 续 
模型 中 的 其 他 套 接 字 发 生 混 淆 。 


以 下 是 kvmsg 的 代码 ， 已 经 经 过 了 精简 : kvsimple: Key-value message class in 


Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 


ZMQ 指南 


Copyright other contributors as noted in the AUTHORS file. 
This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 


This is free software; you can redistribute it and/or modify il 
the terms of the GNU Lesser General Public License as publishe« 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 


This software is distributed in the hope that it will be usefu- 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the G! 
Lesser General Public License for more details. 


You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http://www.gnu.org/licenses/». 


SA 


#include "kvsimple.h" 
#include "zlist.h" 


// ” 键 是 一 个 短 字符 串 
#define KVMSG KEY MAX 255 


// 消息 被 格式 化 成 三 帧 

// frame 0: 键 (ZMQ 字 符 串 ) 

// frame 1: 编号 (8 个 字 节 ， 按 顺序 排列 ) 
// frame 2: 内 容 (二 进 制 数 据 块 ) 


#define FRAME KEY 9 
4define FRAME SEQ 1 
4define FRAME BODY 2 
4define KVMSG FRAMES 3 


// 类 结构 
struct _kvmsg ( 
// 消息 中 某 帧 是 否 存在 
int present [KVMSG FRAMES]; 
// 对 应 的 ZMQ 消 息 帧 
zmq msg t frame [KVMSG FRAMES]; 
// 将 键 转换 为 C 语 言 字 符 串 
char key [KVMSG KEY MAX + 1]; 


3 
// =-------------------------------------------------------------: 
// ”构造 函数 ， 设 置 编号 
kvmsg t * 
kvmsg new (int64 t sequence) 
{ 
kvmsg t 
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*self; 


self - (kvmsg t *) zmalloc (sizeof (kvmsg t)); 
kvmsg set sequence (self, sequence); 
return self; 


MEC c EE IEEE 
// WR RE 


// dA TS WI zhash freefn() cf 
void 
kvmsg free (void *ptr) 


if (ptr) { 
mg t *self = (kvmsg t *) ptr; 
// 销毁 消息 中 的 由 
int gres 
for (frame nbr = 6; frame nbr < KVMSG FRAMES; frame nbr--) 
if (self-»present [frame nbr]) 
zmq msg close (&self-»-frame [frame nbr]); 


// 释放 对 象 本 身 
free (self); 


} 
} 
void 
kvmsg destroy (kvmsg t **self p) 
{ 
assert (self p); 
if (*self p) { 
kvmsg. free (*self p); 
*self p - NULL; 
} 
} 
// --------------- 
// ”从 套 接 字 中 读 取 键 值 消息 ， 返回 kvmsg 实 例 
kvmsg t * 
kvmsg recv (void *socket) 
t 


assert (socket); 
kvmsg t *self = kvmsg new (0); 


// 读 取 所 有 帧 ， 出 错 则 销毁 对 象 
int frame nbr; 
for (frame nbr = 6; frame nbr < KVMSG FRAMES; frame nbr++) { 
if (self-»present [frame nbr]) 
zmq msg close (&self-»-frame [frame nbr]); 


zmq msg init (&self--frame [frame nbr]); 

self-»present [frame nbr] = 1; 

if (zmq recvmsg (socket, &self-»-frame [frame nbr], 0) == -: 
kvmsg. destroy (&self); 





break; 
// ”验证 多 帧 消息 
int rcvmore = (frame nbr < KVMSG FRAMES - 1)? 1: 0; 
if (zsockopt rcvmore (socket) !- rcvmore) { 
kvmsg destroy (&self); 
break; 
} 
} 
return self; 
} 
pe | 
// 向 套 接 字 发 送 键 值 对 消息 ， 不 检验 消息 帧 的 内 容 
void 
kvmsg send (kvmsg t *self, void *socket) 
1 
assert (self); 
assert (socket); 
int frame nbr; 
for (frame nbr = O; frame nbr < KVMSG FRAMES; frame nbr--) { 
zmq msg t copy; 
zmq msg init (&copy); 
if (self-»present [frame nbr]) 
zmq msg copy (&copy, &self--frame [frame nbr]); 
zmq sendmsg (socket, &copy, 
(frame nbr « KVMSG FRAMES - 1)? ZMQ SNDMORE: 9); 
zmq msg close (&copy); 
J 
J 
y cce 
// 从 消息 中 获取 键 值 ， 不 存在 则 返回 NULL 
char * 
kvmsg key (kvmsg t *self) 
t 


assert (self); 
if (self-»present [FRAME KEY]) (1 
if (!*self--key) { 
size t size = zmq msg size (&self-»frame [FRAME KEY]); 
if (size » KVMSG KEY MAX) 
size - KVMSG KEY MAX; 
memcpy (self-»key, 
zmq msg data (&self--frame [FRAME KEY]), size); 


self-»-key [size] = 9; 


J 
return self-»key; 
} 
else 
return NULL; 
} 
// ---------------------- rrn 
// 返回 消息 的 编号 
Int64 t 
kvmsg. sequence (kvmsg t *self) 
{ 


assert (self); 
if (self->present [FRAME SEQ]) { 
assert (zmq msg size (&self--frame [FRAME SEQ]) == 8); 
byte *source = zmq msg data (&self-»-frame [FRAME SEQ]); 
int64 t sequence - ((int64 t) (source [0]) «« 56) 
((int64 t) (source [1]) << 48) 
((int64 t) (source [2]) << 40) 
((int64 t) (source [3]) «« 32) 
((inte64 t) (source [4]) << 24) 
((int64 t) (source [5]) << 16) 
((int64 t) (source [6]) «« 8) 
(int64 t) (source [7]); 
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return sequence; 
} 
else 

return 0; 


A EE 
// ”返回 消息 内 容 ， 不 存在 则 返回 NULL 


byte * 
kvmsg body (kvmsg t *self) 


assert (self); 
if (self-»-present [FRAME BODY]) 

return (byte *) zmq msg data (&self--frame [FRAME BODY]); 
else 

return NULL; 


p 
// ”返回 消息 内 容 的 大 小 


size t 
kvmsg size (kvmsg t *self) 


assert (self); 
if (self-»-present [FRAME BODY]) 
return zmq msg size (&self--frame [FRAME BODY]); 


else 
et un eo 

} 
// -------------- 
// 设置 消息 的 键 
void 
kvmsg set key (kvmsg t *self, char *key) 
{ 


assert (self); 
zmq_msg_t *msg = &self->frame [FRAME KEY]; 
if (self->present [FRAME KEY]) 
zmq msg close (msg); 
zmq msg init size (msg, strlen (key)); 
memcpy (zmq msg data (msg), key, strlen (key)); 
self-»present [FRAME KEY] = 1; 
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acci A 22 mes ee 
// 设置 消息 的 编号 


void 
kvmsg set sequence (kvmsg t *self, int64 t sequence) 
{ 

assert (self); 

zmq_msg_t *msg = &self->frame [FRAME SEQ]; 

if (self->present [FRAME SEQ]) 

zmq msg close (msg); 
zmq msg init size (msg, 8); 


byte *source - zmq msg data (msg); 


source [0] = (byte) ((sequence »» 56) & 255); 
source [1] = (byte) ((sequence »» 48) & 255); 
source [2] = (byte) ((sequence »» 40) & 255); 
source [3] = (byte) ((sequence »» 32) & 255); 
source [4] = (byte) ((sequence »» 24) & 255); 
source [5] = (byte) ((sequence »» 16) & 255); 
source [6] = (byte) ((sequence »» 8) & 255); 
source [7] = (byte) ((sequence) 502595); 


self-»present [FRAME SEQ] = 1; 


MEC E E 


// 设置 消息 内 容 


void 
kvmsg set body (kvmsg t *self, byte *body, size t size) 
{ 

assert (self); 

zmg msg t *msg = &self->frame [FRAME BODY]; 

if (self-»-present [FRAME BODY]) 

zmq msg close (msg); 

self-»-present [FRAME BODY] = 1; 

zmq msg init size (msg, size); 

memcpy (zmq msg data (msg), body, size); 


j 

[f -------------- 
// 使 用 printf() 格 式 设置 消息 刍 

void 

kvmsg fmt key (kvmsg t *self, char *format, ...) 

{ 


char value [KVMSG KEY MAX + 1]; 
va list args; 


assert (self); 

va start (args, format); 

vsnprintf (value, KVMSG KEY MAX, format, args); 
va end (args); 

kvmsg. set key (self, value); 


j 

// --------------- 
// 使 用 Springf() 格 式 设 置 消息 内 容 

void 

kvmsg fmt body (kvmsg t *self, char *format, ...) 

{ 


char value [255 + 1]; 
va_list args; 


assert (self); 

va_start (args, format); 

vsnprintf (value, 255, format, args); 

va_end (args); 

kvmsg_set_body (self, (byte *) value, strlen (value)); 


} 
E E E E E E E E E E ETE, 
// 若 kvmsg 结 构 的 键 值 均 存在 ， 则 存 入 哈 希 表 ; 


// 如果 kvmsg 结 构 已 没有 引用 ， 则 自动 销毁 和 释放 o 


void 


kvmsg store (kvmsg t **self p, zhash t *hash) 


1 
assert (self p); 
if (*self p) f 
kvmsg t *self - *self p; 
assert (self); 
if (self-»present [FRAME KEY] 
&&  self-»present [FRAME BODY]) { 
zhash update (hash, kvmsg key (self), self); 
zhash freefn (hash, kvmsg key (self), kvmsg free); 
} 
*self p = NULL; 
} 
} 
// ------------------- -rrn 


// ”将 消息 内 容 打 印 至 标准 错误 输出 ， 用 以 调试 和 跟踪 


void 
kvmsg dump (kvmsg t *self) 


if (self) { 
if (!self) ( 
fprintf (stderr, "NULL"); 
return; 
} 
size t size = kvmsg size (self); 
byte *body = kvmsg body (self); 
fprintf (stderr, "[seq:9*" PRId64 "]", kvmsg sequence (self: 
fprintf (stderr, "[key:%s]", kvmsg key (self)); 
fprintf (stderr, "[sxze:9zd] '", sS1ze); 
int char nbr; 
for (char nbr = 0; char nbr < size; char nbr-*-*) 
fprintf (stderr, "%02X", body [char nbr]); 
fprintf (stderr, Nn 


j 
else 
fprintf (stderr, "NULL messageNin"); 

j 
// -------------- 
// ”测试 用 例 
int 
kvmsg test (int verbose) 
{ 

kvmsg_t 


*kvmsg; 


printi (5 ^ kwvmsgs 35 


// 准备 上 下 文 和 套 接 字 

zctx t *ctx = zctx new (); 

void *output - zsocket new (ctx, ZMQ DEALER); 

int rc = zmq bind (output, "ipc://kvmsg selftest.ipc"); 
assert (rc -- 0); 

void *input - zsocket new (ctx, ZMQ DEALER); 

rc = zmq connect (input, "ipc://kvmsg selftest.ipc"); 
assert (rc -- 0); 


zhash t *kvmap - zhash new (); 


// 测试 简单 消息 的 发 送 和 接受 
kvmsg = kvmsg new (1); 
kvmsg set key (kvmsg, "key"); 
kvmsg set body (kvmsg, (byte *) "body", 4); 
if (verbose) 
kvmsg dump (kvmsg); 
kvmsg. send (kvmsg, output); 
kvmsg store (&kvmsg, kvmap); 


kvmsg - kvmsg recv (input); 
if (verbose) 
kvmsg dump (kvmsg); 
assert (streq (kvmsg key (kvmsg), "key")); 
kvmsg store (&kvmsg, kvmap); 


// 关闭 并 销毁 所 有 对 象 
zhash destroy (&kvmap); 
zctx destroy (&ctx); 
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我 们 会 在 下 文 编 写 一 个 更 为 完整 的 kvmsg 类 ， 可 以 用 到 现实 环境 中 。 


客户 端 和 服务 端 都 会 维护 一 个 哈 希 表 ， 但 这 个 模型 需要 所 有 的 客户 端 都 比 服务 端 启 
动 得 早 ， 而 且 不 能 月 演 ， 这 显然 不 能 满足 可 靠 性 的 要 求 。 


创建 快照 


为 了 让 后 续 连接 的 〈 或 从 故障 中 恢复 的 ) 客户 端 能 够 获取 服务 器 上 的 状态 信息 ， 需 
要 让 它 在 连接 时 获取 一 份 快照 。 正 如 我 们 将 “消息 "的 概念 简化 为 "已 编号 的 键 值 对 "， 
我 们 也 可 以 将 "状态 "简化 为 "一 个 哈 希 表 "。 为 获取 服务 端 状态 ， 客 户 端 会 打开 一 个 
REQ 套 接 字 进 行 请 求 : 













Server 


state request 


SUB | REQ | sue | REQ | 


Figure4 — State Replication 


我 们 需要 考虑 时 间 的 问题 ， 因 为 生成 快照 是 需要 一 定时 间 的 ， 我 们 需要 知道 应 从 哪 

个 更 新 事件 开始 更 新 快照 ， 服 务 端 是 不 知道 何 时 有 更 新 事件 的 。 一 种 方法 是 先 开 始 

订阅 消息 ， 收 到 第 一 个 消息 之 后 向 服务 端 请 求 “ 将 该 条 更 新 之 前 的 所 有 内 容 发 送 

给 "。 这 样 一 来 ， 服 务 器 需要 为 每 一 次 更 新 保存 一 份 快照 ， 这 显然 是 不 现实 的 。 

所 以 ， 我 们 会 在 客户 端 用 以 下 方式 进行 同步 : 

e 客户 端 开始 订阅 服务 器 的 更 新 事件 ， 然 后 请 求 一 份 快照 。 这 样 就 能 保证 这 份 快 
照 是 在 上 一 次 更 新 事件 之 后 产生 的 。 

e 客户 端 开始 等 待 服务 器 的 快照 ， 并 将 更 新 事件 保存 在 队列 中 ， 做 法 很 简单 ， 不 
要 从 套 接 字 中 读 取 消息 就 可 以 了 ，ZMQ 会 自动 将 这 些 消息 保存 起 来 ， 这 时 不 应 
设置 阅 值 (HWM) 。 


e 当 容 户 端 获取 到 快照 后 ， 它 将 再 次 开始 读 取 更 新 事件 ， 但 是 需要 丢弃 那些 早 于 
快照 生成 时 间 的 事件 。 如 快照 生成 时 包含 了 200 次 更 新 ， 那 客户 端 会 从 第 201 次 
更 新 开始 读 取 。 

e 随后， 客户 端 就 会 用 更 新 事件 去 更 新 自身 的 状态 了 。 

这 是 一 个 比较 简单 的 模型 ， 因 为 它 用 到 了 ZMQ 消 息 队 列 的 机 制 。 服 务 端 代 码 如 下 : 


clonesrv2: Clone server Model Two in C 


// 让 我 们 直接 编译 ， 不 创建 类 库 
Zinclude "kvsimple.c" 


static int s send single (char *key, void *data, void *args); 
static void state manager (void *args, zctx t *ctx, void *pipe); 


int main (void) 


f 


} 
// 


// ”准备 套 接 字 和 上 下 文 

zctx t *ctx = zctx new (); 

void *publisher - zsocket new (ctx, ZMQ PUB); 
zsocket bind (publisher, "tcp://*:5557"); 


int64 t sequence - 0; 
srandom ((unsigned) time (NULL)); 


// ”开启 状态 管理 器 ， 并 等 待 同步 信号 
void *updates = zthread fork (ctx, state manager, NULL); 
free (zstr recv (updates)); 


while (!zctx interrupted) ( 
// ”分 发 键 值 消 息 
kvmsg t *kvmsg = kvmsg new (++sequence); 
kvmsg fmt key  (kvmsg, "9d", randof (10000)); 
kvmsg fmt body (kvmsg, "9d", randof (1000000)); 
kvmsg send (kvmsg, publisher); 
kvmsg. send (kvmsg, updates); 
kvmsg. destroy (&kvmsg); 


} 
printf (" 已 中 断 \n 已 发 送 %d 条 消息 \n"，(int) sequence); 


zctx destroy (&ctx); 
iae tela OP 


快照 请 求 方 信息 


typedef struct f 


void *socket; //. 用 于 发 送 快照 的 ROUTER 套 接 字 
zframe t *identity; // GbR A RR 


) kvroute t; 


Au 
M 


发 送 快照 中 单个 键 值 对 
使 用 Kvmsg 对 象 作为 载体 


Statale nt 
s send single (char *key, void *data, void *args) 


( 


j 


7 
ta 


kvroute t *kvroute - (kvroute t *) args; 
// ” 先 发 送 接收 方 标识 
zframe_send (&kvroute->identity, 
kvroute->socket, ZFRAME MORE + ZFRAME REUSE); 
kvmsg t *kvmsg = (kvmsg t *) data; 
kvmsg. send (kvmsg, kvroute-»socket); 
return 0; 


该 线程 维护 服务 端 状态 ， 并 处 理 快照 请 求 。 


static void 
state manager (void *args, zctx t *ctx, void *"pipe) 


( 


zhash t *kvmap - zhash new (); 


zstr send (pipe, "READY"); 
void *snapshot - zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (snapshot, "tcp://*:5556"); 


zmq pollitem t items [] = ( 

{ pipe, 0, ZMQ POLLIN, © Jj, 

{ snapshot, ©, ZMQ POLLIN, 0 } 
}; 
int64 t sequence = 60; // ”当前 快照 版 本 
while (!zctx interrupted) { 

int rc - zmq poll (items, 2, -1); 

if (rc == -1 && errno -- ETERM) 

break; JU SEqUx CE 


// 等 待 主线 程 的 更 新 事件 
if (items [60].revents & ZMQ POLLIN) { 
kvmsg t *kvmsg - kvmsg recv (pipe); 
if (!kvmsg) 
break; // 中 断 
sequence = kvmsg sequence (kvmsg); 
kvmsg store (&kvmsg, kvmap); 
} 
// ”执行 快照 请 求 
if (items [i].revents & ZMQ POLLIN) { 
zframe t *identity - zframe recv (snapshot); 
if (!identity) 
break; // 中 断 


// 请求 内 容 在 第 二 帧 中 
char *request = zstr_recv (snapshot); 
if (streq (request, "ICANHAZ?")) 

free (request); 


else ( 
printf ("E: 错误 的 请 求 ， 程 序 中 止 \n"); 
break; 

} 


// 发 送 快照 给 容 户 端 

kvroute t routing = ( snapshot, identity ); 

// 和 逐 项 发 送 

zhash foreach (kvmap, s send single, &routing); 


// 发 送 结 束 标 识 ， 内 侈 快照 版 本 号 

printf (" 正 在 发 送 快照 ， 版 本 号 %d\n", (int) sequence); 
zframe send (&identity, snapshot, ZFRAME MORE); 
kvmsg t *kvmsg - kvmsg new (sequence); 
kvmsg set key (kvmsg, "KTHXBAI"); 

kvmsg set body (kvmsg, (byte *) "", 06); 

kvmsg send (kvmsg, snapshot); 

kvmsg. destroy (&kvmsg); 


zhash destroy (&kvmap); 


以 下 是 客户 端 代码 : 


clonecli2: Clone client, Model Two in C 


72 
// 克隆 模式 - 客户 端 - 模型 2 
7 


// 证 我 们 直接 编译 ， 不 生成 类 库 
Zinclude " kvsimple ,Cn 


int main (void) 


1 
// 准备 上 下 文 和 SUB 套 接 字 
zctx t *ctx = zctx new (); 
void *snapshot - zsocket new (ctx, ZMQ DEALER); 
zsocket connect (snapshot, "tcp://localhost:5556"); 
void *subscriber - zsocket new (ctx, ZMQ SUB); 
zsocket connect (subscriber, "tcp://localhost:5557"); 
zhash t *kvmap - zhash new (); 
// 获取 快照 
int64 t sequence = 0; 
zstr send (snapshot, "ICANHAZ?"); 
while (TRUE) ( 
kvmsg t *kvmsg - kvmsg recv (snapshot); 
if (!kvmsg) 
break; // PE 
if (streq (kvmsg key (kvmsg), "KTHXBAI")) ( 
sequence - kvmsg sequence (kvmsg); 
printf ("已 获取 快照 ， 版 本 号 =%d\n"， (int) sequence); 
kvmsg. destroy (&kvmsg); 
break; // 完成 
} 
kvmsg_store (&kvmsg, kvmap); 
} 
// ”应 用 队列 中 的 更 新 事件 ， 丢 弃 过 时 事件 
while (!zctx interrupted) { 
kvmsg t *kvmsg - kvmsg recv (subscriber); 
if (!kvmsg) 
break; M 
if (kvmsg_sequence (kvmsg) > sequence) { 
sequence = kvmsg_sequence (kvmsg); 
kvmsg_store (&kvmsg, kvmap); 
} 
else 
kvmsg. destroy (&kvmsg); 
} 
zhash destroy (&kvmap); 
zctx destroy (&ctx); 
return 0; 
} 


几 点 说 明 : 


Essa le wt 另 一 个 用 来 管理 状 ; 
n uh AD 你 会 考虑 使 用 SUB 套 接 字 ， 但 是 
接 "的 问题 会 影响 到 程序 运 。PAIR 套 接 字 会 让 商 个 线程 严格 同步 的 。 


e ea 阅 值 (HWM) ， 避 免 更 新 服务 内 存 溢 出 。 在 
inproc 协 议 的 连接 中 ， 阅 值 是 两 端 套 接 字 阅 值 的 加 和 ， 所 以 要 分 别 设 置 。 

e 客户 端 比 较 简 单 ， 用 C 语 言 编写 ， 大 约 60 行 代码 。 大 多 数 工作 都 在 kvmsg 类 中 
完成 了 ， 不 过 总 的 来 说 ， 克 隆 模 式 实现 起 来 还 是 比较 简单 的 。 


e 我 们 没有 用 特别 的 方式 来 序列 化 状态 内 容 。 键 值 对 用 kvmsg 对 象 表示 ， 保 存在 
一 个 哈 希 表 中 。 在 不 同 的 时 间 请 求 状态 时 会 得 到 不 同 的 快照 。 

。 我 们 假设 客户 端 只 和 一 个 服务 进行 通信 ， M 0 0 ITAY o RAIH 
不 考虑 如 何 从 服务 前 溃 的 情形 中 恢复 过 

现在 ， 这 两 段 程序 都 还 没有 站 正 地 工作 起 来 ， 但 已 经 能 够 正确 地 同步 状态 了 。 这 是 

一 个 多 种 消息 模式 的 混合 体 : 进程 内 的 PAIR 、 发 布 - 订 阅 、ROUTER-DEALER 等 。 


重 发 键 值 更 新 事件 


第 二 个 模型 中 ， 键 值 更 新 事件 都 来 自 于 服务 器 ， PA ET CR o 但 是 我 
们 需要 的 是 一 个 能 够 在 客户 端 进行 更 新 的 缓存 ， 并 能 同步 到 其 他 客户 端 中 。 这 时 ， 
服务 端 只 是 一 个 无 状态 的 中 间 件 ， 带 来 的 好 处 有 : 
e 我 们 不 用 太 过 关心 服务 端的 可 靠 性 ， 因 为 即使 它 崩 演 了 ， 我 们 仍 能 从 客户 端 中 
获取 完整 的 数据 。 
e 我 们 可 以 使 用 键 值 缓 存在 动态 节点 之 间 分 享 数据 。 


客户 端的 键 值 更 新 事件 会 通过 PUSH-PULL 套 接 字 传达 给 服务 端 : 
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Figure 5 —  Republishing Updates 


我 们 为 什么 不 让 客户 端 直接 将 更 新 信息 发 送 给 其 他 客户 端 呢 ? 虽然 这 样 做 可 以 减少 
延迟 ， 但 是 就 无 法 为 更 新 事件 添加 自 增 的 唯一 编号 了 。 很 多 应 用 程序 都 需要 更 新 事 
件 以 某 种 方式 排序 ， 只 有 将 消息 发 给 服务 端 ， 由 服务 端 分 发 更 新 消息 ， 才 能 保证 更 
新 事件 的 顺序 。 


有 了 唯一 的 编号 后 ， 客 户 端 还 能 检测 到 更 多 的 故障 : 网 络 堵塞 或 队列 溢出 。 如 果 客 
户 端 发 现 消 息 输入 流 有 一 段 空白 ， 它 能 采取 措施 。 可 能 你 会 觉得 此 时 让 客户 端 通知 
服务 端 ， 让 它 重 新 发 送 丢 失 的 信息 ， 可 以 解决 问题 。 但 事实 上 没有 必要 这 么 做 。 消 
息 流 的 空挡 表示 网 络 状 况 不 好 ， 如 果 再 进行 这 样 的 请 求 ， 只 会 让 事情 变 得 更 粮 。 所 
以 一 般 的 做 法 是 由 客户 端 发 出 警告 ， 并 停止 运行 ， 等 到 有 专人 来 维护 后 再 继续 工 

fk o 我 们 开始 创建 在 客户 端 进行 状态 更 新 的 模型 。 以 下 是 客户 端 代 码 : 


clonesrv3: Clone server Model Three in C 


// 
// 克隆 模式 服务 端 模型 3 


// 


// ”直接 编译 ， 不 创建 类 库 
#include "kvsimple.c" 


static int s send single (char *key, void *data, void *args); 


// 快照 请 求 方 信息 

typedef struct { 
void *socket; // ROUTER} T 
zframe_t *identity; // 请求 方 标识 

) kvroute t; 


int main (void) 

{ 
// ”准备 上 下 文 和 套 接 字 
zctx_t *ctx = zctx new (); 
void *snapshot = zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (snapshot, "tcp://*:5556"); 
void *publisher - zsocket new (ctx, ZMQ PUB); 
zsocket bind (publisher, "tcp://*:5557"); 
void *collector - zsocket new (ctx, ZMQ PULL); 
zsocket bind (collector, "tcp://*:5558"); 


int64 t sequence = 90; 
zhash t *kvmap - zhash new (); 


zmq pollitem t items [] = ( 
{ collector, ©, ZMQ POLLIN, © }, 
{ snapshot, ©, ZMQ POLLIN, © } 
3 
while (!zctx interrupted) ( 
int rc - zmq poll (items, 2, 1000 * ZMQ POLL MSEC); 


// ”执行 来 自 客户 端的 更 新 事件 


j 


2 


if (items [60].revents & ZMQ POLLIN) { 


j 


Mdl 


kvmsg_t *kvmsg = kvmsg_recv (collector); 
if (!kvmsg) 
break; // 中 断 
kvmsg set sequence (kvmsg, ++sequence); 
kvmsg send (kvmsg, publisher); 
kvmsg store (&kvmsg, kvmap); 
printf ("I: 发 布 更 新 事件 %5d\n", (int) sequence); 


响应 快照 请 求 


if (items [1].revents & ZMQ POLLIN) ( 


} 


zframe t *identity = zframe recv (snapshot); 
if (!identity) 
break; // Hi 


// ”请 求 内 容 在 消息 的 第 二 帧 中 
char *request = zstr_recv (snapshot); 
if (streq (request, "ICANHAZ?")) 
free (request); 
else ( 
printf ("E: 错误 的 请 求 ， 程 序 中 止 Nn") ， 
break; 


有 
kvroute t routing = ( snapshot, identity ); 


// 逐条 发 送 
zhash foreach (kvmap, s send single, &routing); 


// 发 送 结束 标识 和 编号 

printf ("I: 正在 发 送 快照 ， 版 本 号 :%d\n", (int) sequence); 
zframe send (&identity, snapshot, ZFRAME MORE); 
kvmsg t *kvmsg - kvmsg new (sequence); 

kvmsg set key (kvmsg, "KTHXBAI"); 

kvmsg set body (kvmsg, (byte *) "", 6); 

kvmsg send (kvmsg, snapshot); 

kvmsg. destroy (&kvmsg); 


} 

printf (" 已 中 断 \n 已 处 理 %d 条 消息 \n"，(int) sequence); 
zhash destroy (&kvmap); 

zctx destroy (&ctx); 


return 0; 


Dirty 
static int 


键 值 对 状态 给 套 接 字 ， 使 用 Kvmsg 对 象 保存 键 值 对 


s send single (char *key, void *data, void *args) 


( 


kvroute t *kvroute - (kvroute t *) args; 
// Send identity of recipient first 
zframe send (&kvroute-»identity, 


j 
图 


kvroute->socket, ZFRAME MORE + ZFRAME REUSE); 
kvmsg t *kvmsg = (kvmsg t *) data; 
kvmsg send (kvmsg, kvroute-»socket); 
rae teulame o 





以 下 是 客户 端 代码 : 


clonecli3: Clone client, Model Three in C 


HA 
WA 
A 


N 


克隆 模式 - 客户 端 - 模型 3 


直接 编译 ， 不 创建 类 库 


Zinclude "kvsimple.c" 


int main (void) 


( 


// ”准备 上 下 文 和 SUB 套 接 字 

zctx_t *ctx = zctx new (); 

void *snapshot - zsocket new (ctx, ZMQ DEALER); 
zsocket connect (snapshot, "tcp://localhost:5556"); 
void *subscriber - zsocket new (ctx, ZMQ SUB); 
zsocket connect (subscriber, "tcp://localhost:5557"); 
void *publisher - zsocket new (ctx, ZMQ PUSH); 
zsocket connect (publisher, "tcp://localhost:5558"); 


zhash t *kvmap - zhash new (); 
srandom ((unsigned) time (NULL)); 


// 获取 状态 快照 
int64 t sequence = 0; 
zstr send (snapshot, "ICANHAZ?"); 
while (TRUE) ( 
kvmsg t *kvmsg - kvmsg recv (snapshot); 
if (!kvmsg) 
break; // HM 
if (streq (kvmsg key (kvmsg), "KTHXBAI")) { 
sequence - kvmsg sequence (kvmsg); 
printf ("I: 已 收 到 快照 ， 版 本 号 :%d\n", (int) sequence); 
kvmsg. destroy (&kvmsg); 
break; // ”完成 
} 
kvmsg_store (&kvmsg, kvmap); 
} 
int64 t alarm = zclock time () + 1000; 
while (!zctx interrupted) ( 
zmq pollitem t items [] = ( { subscriber, ©, ZMQ POLLIN, 
int tickless - (int) ((alarm - zclock time ())); 
if (tickless « 0) 


tickless - 0; 
int rc = zmq poll (items, 1, tickless * ZMQ POLL MSEC); 
If (re == 1) 

break; // ”上下文 被 关闭 


if (items [0].revents & ZMQ POLLIN) { 
kvmsg t *kvmsg - kvmsg recv (subscriber); 


if (!kvmsg) 
break; // NR 
// ”丢弃 过 时 消息 ， 包括 心 跳 


if (kvmsg sequence (kvmsg) > sequence) { 
sequence - kvmsg sequence (kvmsg); 
kvmsg store (&kvmsg, kvmap); 
printf ("I: 收 到 更 新 事件 : %dxn"， (int) sequence); 


else 
kvmsg destroy (&kvmsg); 


// 创建 一 个 随机 的 更 新 事件 

if (zclock time () >= alarm) ( 
kvmsg t *kvmsg = kvmsg new (0); 
kvmsg fmt key (kvmsg, "9d", randof (10000 ) ) ， 
kvmsg. fmt body (kvmsg, "9d", randof (1000000)); 
kvmsg send (kvmsg, publisher); 
kvmsg. destroy (&kvmsg); 
alarm = zclock time () + 1000; 


j 


} 

printf ("已 准备 \n 收 到 %d 条 消息 \n"，(int) sequence); 
zhash destroy (&kvmap); 

zctx destroy (&ctx); 

return 0; 





几 点 说 明 : 


e 服务 端 整 合 为 一 个 线程 ， 负 责 收集 来 自 客户 端的 更 新 事件 并 转发 给 其 他 客户 
端 。 它 使 用 PULL 套 接 字 获 取 更 新 事件 ，ROUTER 套 接 字 处 理 快照 EHR’ uA 
PUB 套 接 字 发 布 更 新 事件 。 


e 客户 端 会 每 隔 1 秒 堪 右 发 送 随机 的 更 新 事件 给 端 ， 现 实 中 这 一 动作 由 应 用 
程序 触发 。 
子 树 克隆 
n nu | 。 我 们 可 以 使 用 子 
树 的 方式 来 实现 : 客户 端 在 发 Be 请求 时 告诉 服务 端 它 需 要 的 子 树 ， 在 订阅 更 新 


事件 时 也 指明 子 树 。 


关于 子 树 的 语法 有 很 多 ， 一 种 是 “分 层 路 径 ?结构 ， 另 一 种 是 “主题 树 ”: 


e 分 层 路 径 : [somellist/of/paths 
o 主题 树 : some.list.of.topics 


这 里 我 们 会 使 用 分 层 路 径 结构 ， 以 此 扩展 服务 端 和 容 户 端 ， 进 行 子 树 操 作 。 维 护 多 
个 子 树 其 实 并 不 太 困 难 ， 因 此 我 们 不 在 这 里 演示 。 


下 面 是 服务 端 代码 ， 由 模型 3 衍化 而 来 : 


clonesrv4: Clone server Model Four in C 


Mi 

// 克隆 模式 服务 端 模型 4 
VN 

// ERRE > TA 


建 类 库 
Zinclude "kvsimple.c" 


static int s send single (char *key, void *data, void *args); 


// 快照 请 求 方 信息 
typedef struct ( 


void *socket; // ROUTER 套 接 字 
zframe t *identity; M REA ARR 
char *subtree; // 指定 的 子 树 


) kvroute t; 


int main (void) 

{ 
// 准备 上 下 文 和 套 接 字 
zctx t *ctx = zctx new (); 
void *snapshot - zsocket new (ctx, ZMQ ROUTER); 
zsocket bind (snapshot, "tcp://*:5556"); 
void *publisher = zsocket new (ctx, ZMQ PUB); 
zsocket bind (publisher, "tcp://*:5557"); 
void *collector - zsocket new (ctx, ZMQ PULL); 
zsocket bind (collector, "tcp://*:5558"); 


int64 t sequence - 0; 
zhash t *kvmap - zhash new (); 


zmq pollitem t items [] = ( 
{ collector, 0, ZMQ POLLIN, 0 }, 
{ snapshot, ©, ZMQ POLLIN, © } 
3 
while (!zctx interrupted) ( 
int rc - zmq poll (items, 2, 1000 * ZMQ POLL MSEC); 


// 执行 来 自 客户 端的 更 新 事件 
if (items [0].revents & ZMQ POLLIN) ( 
kvmsg t *kvmsg - kvmsg recv (collector); 


j 


// 
statie int 


} 
// 


if (!kvmsg) 
break; // Interrupted 
kvmsg set sequence (kvmsg, --sequence); 
kvmsg send (kvmsg, publisher); 
kvmsg store (&kvmsg, kvmap); 
printf ("I: 发 布 更 新 事件 95dNn", (int) sequence); 


响应 快照 请 求 


if (items [i].revents & ZMQ POLLIN) { 


j 


zframe t *identity - zframe recv (snapshot); 
if (!identity) 
break; // Interrupted 


// ”请 求 内 容 在 消息 的 第 二 帧 中 
char *request = zstr_recv (snapshot); 
char *subtree = NULL; 
if (streq (request, "ICANHAZ?")) ( 
free (request); 
subtree - zstr recv (snapshot); 


j 

else ( 
printf ("E: 48g Eo &UpPPGENn"); 
break; 

} 


I AGEREM 
kvroute t routing = ( snapshot, identity, subtree }; 


// 逐条 发 送 
zhash foreach (kvmap, s send single, &routing); 


// 发 送 结束 标识 和 编号 

printf ("I: 正在 发 送 快照 ， 版 本 号 : %dNxn"， (int) sequence); 
zframe send (&identity, snapshot, ZFRAME MORE); 
kvmsg t *kvmsg - kvmsg new (sequence); 

kvmsg set key (kvmsg, "KTHXBAI"); 

kvmsg. set body (kvmsg, (byte *) subtree, 9); 

kvmsg send (kvmsg, snapshot); 

kvmsg. destroy (&kvmsg); 

free (subtree); 


printf (" 已 中 断 \n 已 处 理 %d 条 消息 \n"， (int) sequence); 
zhash destroy (&kvmap); 
zctx destroy (&ctx); 


return 0; 


条 键 值 对 状态 给 套 接 字 ， 使 用 kKvmsg 对 象 保 存 键 值 对 


s-send single (char key void *data, void *args) 


( 


kvroute t *kvroute - (kvroute t *) args; 


kvmsg t *kvmsg = (kvmsg t *) data; 
if (strlen (kvroute-»subtree) <= strlen (kvmsg key (kvmsg)) 
&&  memcmp (kvroute-»subtree, 
kvmsg key (kvmsg), strlen (kvroute-»subtree)) == 6: 
// ” 先 发 送 接收 方 的 标识 
zframe_send (&kvroute->identity, 
kvroute->socket, ZFRAME MORE + ZFRAME REUSE); 
kvmsg. send (kvmsg, kvroute-»socket); 








} 
return 0; 
} 
加 E 
下 面 是 客户 端 代码 : 


clonecli4: Clone client, Model Four in C 


YY 
MA 
// ”直接 编译 ， 不 创建 类 库 


#include "kvsimple.c" 
#define SUBTREE "/client/" 


int main (void) 

{ 
// ”准备 上 下 文 和 SUB 套 接 字 
zctx_t *ctx = zctx new (); 
void *snapshot - zsocket new (ctx, ZMQ DEALER); 
zsocket connect (snapshot, "tcp://localhost:5556"); 
void *subscriber - zsocket new (ctx, ZMQ SUB); 
zsocket connect (subscriber, "tcp://localhost:5557"); 
zsockopt set subscribe (subscriber, SUBTREE); 
void *publisher - zsocket new (ctx, ZMQ PUSH); 
zsocket connect (publisher, "tcp://localhost:5558"); 


zhash t *kvmap - zhash new (); 
srandom ((unsigned) time (NULL)); 


// 获取 状态 快照 
int64 t sequence = 0; 
zstr sendm (snapshot, "ICANHAZ?"); 
zstr send (snapshot, SUBTREE); 
while (TRUE) ( 
kvmsg t *kvmsg - kvmsg recv (snapshot); 
if (!kvmsg) 
break; // Interrupted 
if (streq (kvmsg key (kvmsg), "KTHXBAI")) ( 
sequence - kvmsg sequence (kvmsg); 
printf ("I: 已 收 到 快照 ， 版 本 号 :%d\n", (int) sequence); 


kvmsg destroy (&kvmsg); 
break; // Done 
} 


kvmsg_store (&kvmsg, kvmap); 


} 


int64 t alarm = zclock time () + 1000; 
while (!zctx interrupted) ( 
zmq pollitem t items [] = ( ( subscriber, ©, ZMQ POLLIN, © 
int tickless - (int) ((alarm - zclock time ())); 
if (tickless « 0) 
tickless - 0; 
int rc = zmq poll (items, 1, tickless * ZMQ POLL MSEC); 
if (rc -- -1) 
break; // ”上下文 被 关闭 


if (items [0].revents & ZMQ POLLIN) { 
kvmsg_t *kvmsg = kvmsg_recv (subscriber); 
if (!kvmsg) 
break; // ”中断 


// ”丢弃 过 时 消息 ， 包 括 心 跳 
if (kvmsg sequence (kvmsg) > sequence) { 
sequence - kvmsg sequence (kvmsg); 
kvmsg store (&kvmsg, kvmap); 
printf ("I: 收 到 更 新 事件 :96dNn", (int) sequence); 
} 
else 
kvmsg_destroy (&kvmsg); 


} 

// 创建 一 个 随机 的 更 新 事件 

if (zclock time () >= alarm) ( 
kvmsg t *kvmsg = kvmsg new (0); 
kvmsg fmt key  (kvmsg, "%s%d", SUBTREE, randof (10000): 
kvmsg fmt body (kvmsg, "9d", randof (1000000)); 
kvmsg send (kvmsg, publisher); 
kvmsg. destroy (&kvmsg); 
alarm = zclock time () + 1000; 

} 

} 


printf ("已 准备 \n 收 到 %d 条 消息 \n"， (int) sequence); 
zhash_destroy (&kvmap); 

zctx destroy (&ctx); 

returno; 





瞬间 值 指 的 是 那些 会 立刻 过 期 的 值 。 如 果 你 用 克隆 模式 搭建 一 个 类 似 DNS 的 服务 
时 ， 就 可 以 用 瞬间 值 来 模拟 动态 DNS 解 析 了 。 当 节点 连接 网 络 ， 对 外 发 布 它 的 地 
址 ， 并 不 断 地 更 新 地 址 。 如 果 节 点 断 开 连接 ， 则 它 的 地 址 也 会 失效 。 


瞬间 值 可 以 和 会 话 (session) 联系 起 来 ， 当 会 话 结束 时 ， 肯 间 值 也 就 失效 了 。 克 隆 
模式 中 ， 会 话 是 由 客户 端 定 义 的 ， 并 会 在 客户 端 断 开 连接 时 消亡 。 


更 简单 的 方法 是 为 每 一 个 瞬间 值 设 定 一 个 过 期 时 间 ， 客 户 端 会 不 断 延 长 这 个 时 间 ， 
当 断 开 连 接 时 这 个 时 间 将 得 不 到 更 新 ， 服 务 器 就 会 自动 将 其 删除 。 


我 们 会 用 这 种 简单 的 方法 来 实现 瞬间 值 ， 因为 太 过 复杂 的 方法 可 能 不 值 当 ， 它 们 的 
差别 仅 在 性 能 上 体现 。 如 果 容 户 端 有 很 多 瞬间 值 ， 那 为 每 个 值 设 定 过 期 时 间 是 恰当 
的 ; 如 果 瞬 间 值 到 达 一 定 的 量 ， 那 最 好 还 是 将 其 和 会 话 相 关联 ， 统 一 进行 过 期 处 
Ho 


首先 ， 我 们 需要 设法 在 键 值 对 消息 中 加 入 过 期 时 间 。 我 们 可 以 增加 一 个 消息 帧 ， 但 
这 样 一 来 每 当 我 们 需要 增加 消息 内 容 时 就 需要 修改 kvmsg 类 库 了 ， 这 并 不 合适 。 所 
以 ， 我 们 一 次 性 增加 一 个 “属性 "消息 帧 ， 用 于 添加 不 同 的 消息 属性 。 


其 次 ， 我 们 需要 设法 删除 这 条 数据 。 目 前 为 止 服 务 端 和 客户 端 会 盲目 地 增 改 哈 希 表 
中 的 数据 ， 我 们 可 以 这 样 定义 : 当 消 息 的 值 是 空 的 ， 则 表示 删除 这 个 键 的 数据 。 


下 面 是 一 个 更 为 完整 的 kvmsg 类 代码 ， 它 实现 了 “属性 ? 帧 ， 以 及 一 个 UUID 帧 ， 我 们 
后 面 会 用 到 。 该 类 还 会 负责 处 理 值 为 空 的 消息 ， 达 到 删除 的 目的 : 


kvmsg: Key-value message class - full in C 


Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 


This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 


This is free software; you can redistribute it and/or modify i! 
the terms of the GNU Lesser General Public License as publishet 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 


This software is distributed in the hope that it will be usefu- 
WITHOUT ANY WARRANTY; without even the implied warranty of 
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the G! 
Lesser General Public License for more details. 


You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http://www.gnu.org/licenses/». 


R AN LU, 了 
ZMQ 相国 


Zinclude "kvmsg.h" 
Zinclude «uuid/uuid.h» 
zexune dudes zs St 


// 键 是 短 字 符 串 
#define KVMSG KEY MAX 255 


// 消息 包含 五 帧 
// frame 0: 键 (ZMQ 字 符 串 ) 

// frame 1: 编号 (8 个 字 节 ， 按 顺序 排列 ) 
// frame 2: UUID( 二 进 制 块 ，16 个 字 节 ) 
// frame 3: 属性 (ZMQ 字 符 串 ) 

// frame 4: 值 ( 二 进 制 块 ) 
#define FRAME KEY 
#define FRAME SEQ 
Zdefine FRAME UUID 
Zdefine FRAME PROPS 
Zdefine FRAME BODY 
Zdefine KVMSG FRAMES 


OPODNDPO 


// ”类 结构 

struct _kvmsg { 
// ” 帧 是 否 存 在 
int present [KVMSG FRAMES]; 
// 对 应 消息 由 
zmqg msg t frame [KVMSG FRAMES]; 
//. R CIE ECTA TRA 
char key [KVMSG KEY MAX + 1]; 
// 属性 列表 ，Kkey=VvalLue 形 式 
zlist_t *props 
size t props size; 


}; 


// ”将 属性 列表 序列 化 为 字符 串 
static void 
s encode props (kvmsg t *self) 
{ 
zmq_msg_t *msg = &self->frame [FRAME PROPS]; 
if (self->present [FRAME PROPS]) 
zmq msg close (msg); 


zmq msg init size (msg, self-»props size); 
char *prop = zlist first (self-»props); 
char *dest - (char *) zmq msg data (msg); 
while (prop) (1 

strcpy (dest, prop); 

dest += strlen (prop); 

*dest-- - 'Mn'; 

prop - zlist next (self-»props); 
J; 
self-»-present [FRAME PROPS] = 1; 


N 


// ”从 字符 串 中 解析 属性 列表 
static void 
s decode props (kvmsg t *self) 
{ 
zmg msg t *msg = &self->frame [FRAME PROPS]; 
self-»props size = 0; 
while (zlist size (self-»props)) 
free (zlist pop (self-»props)); 


size t remainder - zmq msg size (msg); 
char *prop - (char *) zmq msg data (msg); 
char *eoln = memchr (prop, '*n', remainder); 
while (eoln) ( 
*eoln - 0; 
zlist append (self-»props, strdup (prop)); 
self-»props size += strlen (prop) + 1; 
remainder -= strlen (prop) + 1; 
prop = eoln + 1; 
eoln memchr (prop, '*n', remainder); 


kvmsg t * 
kvmsg new (int64 t sequence) 
{ 
kvmsg_t 
*self; 


self - (kvmsg t *) zmalloc (sizeof (kvmsg t)); 
self-»props = zlist new (); 

kvmsg set sequence (self, sequence); 

return self; 


void 
kvmsg free (void *ptr) 


if (ptr) { 
kvmsg t *self = (kvmsg t *) ptr; 
// 释放 所 有 消息 帧 
int frame nbr; 
for (frame nbr = O; frame nbr < KVMSG FRAMES; frame nbr--*) 
if (self-»present [frame nbr]) 


zmq msg close (&self-»-frame [frame nbr]); 


// ”释放 属性 列表 

while (zlist size (self-»props)) 
free (zlist pop (self-»props)); 

zlist destroy (&self-»props); 


// 释放 对 象 本 身 
free (self); 


j 
} 
void 
kvmsg destroy (kvmsg t **self p) 
{ 
assert (self p); 
if (*self p) { 
kvmsg free (*self p); 
*self p - NULL; 
} 
} 
// -------------------- nn 


//  XRisstlkvmsgs $ 


kvmsg t * 
kvmsg dup (kvmsg t *self) 
{ 


kvmsg t *kvmsg = kvmsg new (9); 
int frame nbr; 
for (frame nbr = 6; frame nbr < KVMSG FRAMES; frame nbr++) ( 
if (self-»present [frame nbr]) ( 
zmg msg t *src = &self--frame [frame nbr]; 
zmq msg t *dst = &kvmsg-»frame [frame nbr]; 
zmq msg init size (dst, zmq msg size (src)); 
memcpy (zmq msg data (dst), 
zmq msg data (src), zmq msg size (src)); 
kvmsg-»present [frame nbr] = 1; 
} 
} 
kvmsg->props = zlist copy (self->props); 
return kvmsg; 


j 

// ------------- 
// 从 套 接 字 总 读 取 键 值 对 ， 返 回 Kvmsg 实 例 

kvmsg t * 

kvmsg recv (void *socket) 

t 


assert (socket); 


kvmsg t *self - kvmsg new (0); 


E: 


//. (EXP Wo HAHEN ARANE 
int frame nbr; 
for (frame nbr = 6; frame nbr < KVMSG FRAMES; frame nbr++) ( 
if (self-»present [frame nbr]) 
zmq msg close (&self-»-frame [frame nbr]); 
zmq msg init (&self--frame [frame nbr]); 
self-»present [frame nbr] = 1; 
if (zmq recvmsg (socket, &self-»-frame [frame nbr], 0) == -: 
kvmsg destroy (&self); 
break; 
// ”验证 多 帧 消息 
int rcvmore = (frame nbr < KVMSG FRAMES - 1)? 1: 0; 
if (zsockopt rcvmore (socket) !- rcvmore) { 
kvmsg destroy (&self); 
break; 


j 


} 
if (self) 

s decode props (self); 
return self; 





} 
// Ae Me = mus z - aA T E exa Ln 
FA ] 4&4 A 7 息 也 td 
void 
kvmsg_send (kvmsg t *self, void *socket) 
{ 
assert (self); 
assert (socket); 
s encode props (self); 
int frame nbr; 
for (frame nbr = 6; frame nbr < KVMSG FRAMES; frame nbr-*-) ( 
zmq msg t copy; 
zmq msg init (&copy); 
if (self-»present [frame nbr]) 
zmq msg copy (&copy, &self--frame [frame nbr]); 
zmq sendmsg (socket, &copy, 
(frame nbr « KVMSG FRAMES - 1)? ZMQ SNDMORE: 9); 
zmq msg close (&copy); 
} 
} 
// ------------------------- 


kvmsg key (kvmsg t *self) 
{ 


assert (self); 
if (self->present [FRAME KEY]) { 
if (!*self--key) { 
size t size = zmq msg size (&self-»frame [FRAME KEY]); 
if (size > KVMSG KEY. MAX) 
size - KVMSG KEY MAX; 
memcpy (self-»key, 
zmq msg data (&self--frame [FRAME KEY]), size); 
self-»-key [size] = 9; 


} 
return self->key; 
} 
else 
return NULL; 
} 
// ------------------------- nnn 
// ”返回 消息 的 编号 
int64 t 
kvmsg sequence (kvmsg t *self) 
{ 


assert (self); 

if (self->present [FRAME SEQ]) { 
assert (zmq msg size (&self--frame [FRAME SEQ]) == 8); 
byte *source = zmq msg data (&self-»-frame [FRAME SEQ]); 
int64 t sequence - ((int64 t) (source [0]) «« 56) 


* ((int64 t) (source [1]) «« 48) 
* ((int64 t) (source [2]) «« 40) 
* ((int64 t) (source [3]) «« 32) 
+ ((int64 t) (source [4]) << 24) 
* ((int64 t) (source [5]) «« 16) 
* ((int64 t) (source [6]) «« 8) 
* (int64 t) (source [7]); 
return sequence; 
} 
else 
return o: 
} 
// --------------------------------------------------------------: 
// 返回 消息 的 UUID 
byte * 
kvmsg uuid (kvmsg t *self) 
{ 


assert (self); 
if (self->present [FRAME UUID] 
&&  zmq msg size (&self--frame [FRAME UUID]) == sizeof (uuid t; 


return (byte *) zmq msg data (&self--frame [FRAME UUID]); 
else 
fae rte NISUS 


DENNIS 
// 返回 消息 的 内 容 


byte * 
kvmsg body (kvmsg t *self) 


assert (self); 
if (self-»-present [FRAME BODY]) 

return (byte *) zmq msg data (&self--frame [FRAME BODY]); 
else 

return NULL; 


j 

// -------------- 
// 返回 消息 内 容 的 长 度 

size t 

kvmsg size (kvmsg t *self) 

{ 


assert (self); 
if (self-»-present [FRAME BODY]) 
return zmq msg size (&self--frame [FRAME BODY]); 


else 
returno; 

} 
// =--------------------------------------------------------------: 
// 设置 消息 的 键 
void 
kvmsg set key (kvmsg t *self, char *key) 
{ 


assert (self); 
zmg msg t *msg = &self->frame [FRAME KEY]; 
if (self-»-present [FRAME KEY]) 
zmq msg close (msg); 
zmq msg init size (msg, strlen (key)); 
memcpy (zmq msg data (msg), key, strlen (key)); 
self-»present [FRAME KEY] = 1; 


2 


// ”设置 消息 的 编号 


void 
kvmsg set sequence (kvmsg t *self, int64 t sequence) 
{ 

assert (self); 

zmg msg t *msg = &self->frame [FRAME SEQ]; 

if (self-»present [FRAME SEQ]) 

zmq msg close (msg); 
zmq msg init size (msg, 8); 


byte *source - zmq msg data (msg); 


source [0] = (byte) ((sequence »» 56) & 255); 
source [1] = (byte) ((sequence »» 48) & 255); 
source [2] = (byte) ((sequence »» 40) & 255); 
source [3] = (byte) ((sequence »» 32) & 255); 
source [4] = (byte) ((sequence »» 24) & 255); 
source [5] = (byte) ((sequence »» 16) & 255); 
source [6] = (byte) ((sequence >> 8) & 255); 
source [7] = (byte) ((sequence) & 255): 


self-»present [FRAME SEQ] = 1; 


B e RCM C C LE TT EU IO HU UM n 
// 生成 并 设置 消息 的 UUID 


void 
kvmsg set uuid (kvmsg t *self) 
{ 
assert (self); 
zmg msg t *msg = &self->frame [FRAME UUID]; 
uuid t uuid; 
uuid generate (uuid); 
if (self-»present [FRAME UUID]) 
zmq msg close (msg); 
zmq msg init size (msg, sizeof (uuid)); 
memcpy (zmq msg data (msg), uuid, sizeof (uuid)); 
self-»-present [FRAME UUID] = 1; 


Dic cep td itd tbc 


S ey A ES F? 
// 设置 消息 的 内 容 


void 
kvmsg set body (kvmsg t *self, byte *body, size t size) 
{ 

assert (self); 

zmg msg t *msg = &self->frame [FRAME BODY]; 

if (self-»-present [FRAME BODY]) 

zmq msg close (msg); 
self-»present [FRAME BODY] = 1; 
zmq msg init size (msg, size); 


memcpy (zmq msg data (msg), body, size); 


} 
// ----------------- 
// 使 用 printf() 格 式 设置 消息 的 键 
void 
kvmsg fmt key (kvmsg t *self, char *format, ...) 
{ 
char value [KVMSG KEY MAX + 1]; 
va list args; 
assert (self); 
va start (args, format); 
vsnprintf (value, KVMSG KEY MAX, format, args); 
va end (args); 
kvmsg. set key (self, value); 
} 
// ------------------ 
// 使 用 printf() 格 式 设 置 消息 内 容 
void 
kvmsg fmt body (kvmsg t *self, char *format, ...) 
{ 


char value [255 + 1]; 
va list args; 


assert (self); 

va start (args, format); 

vsnprintf (value, 255, format, args); 

va end (args); 

kvmsg set body (self, (byte *) value, strien (value)); 


ee 


// 获取 消息 属性 ， 无 则 返回 空 字符 串 


char * 
kvmsg get prop (kvmsg t *self, char *name) 


assert (strchr (name, '=') == NULL); 
char *prop = zlist first (self-»props); 
size t namelen - strlen (name); 
while (prop) (1 
if (strlen (prop) » namelen 
&&  memcmp (prop, name, namelen) == 0 
&& prop [namelen] == '-') 
return prop + namelen + 1; 
prop = zlist next (self-»props); 


rerun a 
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// 设置 消息 属性 
// 属性 名 称 不 能 包含 = 号 ， 值 的 最 大 长 度 是 255 


void 
kvmsg set prop (kvmsg t *self, char *name, char *format, ...) 
{ 

assert (strchr (name, 'z') == NULL); 


char value [255 * 1]; 

va list args; 

assert (self); 

va start (args, format); 

vsnprintf (value, 255, format, args); 
va end (args); 


// TREN 
char *prop = malloc (strlen (name) + strlen (value) + 2); 


// 删除 已 存在 的 属性 
sprintf (prop, "%s=", name); 
char *existing = zlist_first (self->props); 
while (existing) { 
if (memcmp (prop, existing, strlen (prop)) == 0) { 
self->props_size -= strlen (existing) + 1; 
zlist_remove (self->props, existing); 
free (existing); 
break; 


} 


existing = zlist_next (self->props); 


} 

// 添加 新 属性 

strcat (prop, value); 

zlist append (self-»props, prop); 
self-»props size += strlen (prop) + 1; 


// 在 哈 布 表 中 保存 kvmsg 对 象 
// 当 Kkvmsg 对 象 不 再 被 使 用 时 进行 释放 操作 ; 
//.— 若 传 入 的 值 为 室 ， 则 删除 该 对 象 。 


void 
kvmsg store (kvmsg t **self p, zhash t *hash) 
{ 
assert (self p); 
if (*self p) { 
kvmsg t *self - *self p; 


assert (self); 
if (kvmsg size (self)) { 
if (self-»-present [FRAME KEY] 
&&  self-»present [FRAME BODY]) ( 
zhash update (hash, kvmsg key (self), self); 
zhash freefn (hash, kvmsg key (self), kvmsg free); 
} 
} 


else 
zhash delete (hash, kvmsg key (self)); 


*self p - NULL; 


II E E RESENTE EAM SUME EET AE EE Eee M REEF 
// 将 消息 内 容 输 出 到 标准 错误 输出 


void 
kvmsg dump (kvmsg t *self) 


if (self) ( 
if (!self) ( 
Ttbrintó (stderr T "NUEL')S 
return; 
} 
size t size = kvmsg size (self); 
byte *body = kvmsg body (self); 
fprintf (stderr, "[seq:%" PRId64 "]", kvmsg sequence (self: 
fprintf (stderr, "[key:%s]", kvmsg key (self)); 
fprintf (stderr "[size:9zd] ", size); 
if (zlist size (self-»props)) { 
Tprntf cstderr, "Ds 
char *prop = zlist first (self-»props); 
while (prop) (1 
tprintf (stderr "Xs; prop); 
prop = zlist next (self-»props); 
} 
tonimef (stderr cji) 
} 
int char nbr; 
for (char nbr = 0; char nbr < size; char nbr-*-*) 
fprintf (stderr, "%02X", body [char nbr]); 
trinti (stderr "Nn 
} 
else 
fprintf (stderr, "NULL message\n"); 


// ”测试 用 例 


int 
kvmsg_test (int verbose) 
{ 
kvmsg_t 
*kvmsg; 


printt (" * kwmsg: ^); 


// ”准备 上 下 文 和 套 接 字 

zctx t *ctx = zctx new (); 

void *output = zsocket new (ctx, ZMQ DEALER); 

int rc - zmq bind (output, "ipc://kvmsg selftest.ipc"); 
assert (rc == 0); 

void *input - zsocket new (ctx, ZMQ DEALER); 

rc = zmq connect (input, "ipc://kvmsg selftest.ipc"); 
assert (rc -- 0); 


zhash t *kvmap - zhash new (); 


// 测试 简单 消息 的 收发 
kvmsg = kvmsg new (1); 
kvmsg set key (kvmsg, "key"); 
kvmsg. set uuid (kvmsg); 
kvmsg set body (kvmsg, (byte *) "body", 4); 
if (verbose) 
kvmsg dump (kvmsg); 
kvmsg. send (kvmsg, output); 
kvmsg store (&kvmsg, kvmap); 


kvmsg - kvmsg recv (input); 
if (verbose) 
kvmsg dump (kvmsg); 
assert (streq (kvmsg key (kvmsg), "key")); 
kvmsg store (&kvmsg, kvmap); 


// 测试 带 有 属性 的 消息 的 收发 
kvmsg = kvmsg new (2); 
kvmsg set prop (kvmsg, "propi", "value1"); 
kvmsg set prop (kvmsg, "prop2", "value1"); 
kvmsg. set prop (kvmsg, "prop2", "value2"); 
kvmsg set key (kvmsg, "key"); 
kvmsg. set uuid (kvmsg); 
kvmsg set body (kvmsg, (byte *) "body", 4); 
assert (streq (kvmsg get prop (kvmsg, "prop2"), "value2")); 
if (verbose) 

kvmsg dump (kvmsg); 
kvmsg send (kvmsg, output); 
kvmsg. destroy (&kvmsg); 


kvmsg - kvmsg recv (input); 
if (verbose) 
kvmsg dump (kvmsg); 


assert (streq (kvmsg key (kvmsg), "key")); 
assert (streq (kvmsg get prop (kvmsg, "prop2"), "value2")); 
kvmsg destroy (&kvmsg); 
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zhash_destroy (&kvmap) ; 
zctx_destroy (&ctx); 


pr tmtf (C COKNIQ 
Ceturto; 








客户 端 模型 5 和 模型 4 没有 太 大 区 别 ， 只 是 kvmsg 类 库 变 了 。 在 更 新 消息 的 时 候 还 需 
要 添加 一 个 过 期 时 间 的 属性 : 


kvmsg set prop (kvmsg, "ttl", "9d", randof (39)); 


服务 端 模型 5 有 较 大 的 变化 ， 我 们 会 用 反应 堆 来 代替 轮 询 ， 这 样 就 能 混 含 处 理 定 时 
事件 和 套 接 字 事 件 了 ， 只 是 在 C 语 言 中 是 比较 麻烦 的 。 下 面 是 代码 : 


clonesrv5: Clone server Model Five in C 


7 
// 克隆 模式 - RAS - 模型 5 
// 


// 直接 编译 ， 不 建 类 库 
4include "kvmsg.c" 


// 反应 堆 处 理 器 

static int s snapshots (zloop t *loop, void *socket, void *args); 
static int s collector (zloop t *loop, void *socket, void *args); 
static int s flush ttl (zloop t *loop, void *socket, void *args); 


// 服务 器 属性 
typedef struct ( 


zotx t Ctx I JEFE 

zhash_t *kvmap; // RIES G hik 

zloop_t *loop; // zloopA č 

int port; // iiu 

int64 t sequence; // 更 新 事件 编号 

void *snapshot; // 处理 快照 请 求 

void *publisher; // 发 布 更 新 事件 

void *collector; // 从 客户 端 收集 接收 更 新 事件 


) clonesrv t; 


int main (void) 


{ 


static int s send single (char 


// 


clonesrv t *self = (clonesrv_t 


self-»port = 5556; 

self-»ctx = zctx new (); 
self-»-kvmap = zhash new (); 
self->loop = zloop new (); 
zloop set verbose (self-»loop, 


// ”打开 克隆 模式 服务 端 套 接 字 
self->snapshot = 
self->publisher 
self->collector 
zsocket_bind (self->snapshot, 

zsocket_bind (self->publisher, 
zsocket bind (self-»collector, 


//. 注册 反应 堆 处 理 程序 

zloop reader (self-»1loop, 
zloop reader (self-»loop, 
zloop timer  (self-»loop, 


//| ”运行 反应 堆 ， 直 至 中 断 
zloop_start (self->loop); 


zloop destroy (&self->loop); 
zhash destroy (&self-»-kvmap); 
zctx destroy (&self-»ctx); 
free (self); 

return 0; 


发 送 快照 内 容 


请 求 方 信息 


typedef struct { 


self- 
self- 
1000, 


*) zmalloc (sizeof (clonesrv t): 


FALSE); 


zsocket new (self-»ctx, ZMQ ROUTER); 
zsocket new (self-»ctx, ZMQ PUB); 
zsocket new (self-»ctx, ZMQ PULL); 


"tcp://*:9d", self-»port); 
"tcp://*:9sd", self->port + 1); 
"tcp://*:%d", self->port + 2); 


>snapshot, s_snapshots, self); 
>collector, s_collector, self); 
©, s_flush_ttl, self); 


*key, void *data, void *args); 


void *socket; // ROUTER € 
zframe t *identity; // 请求 方 标识 
char *subtree; // ” 子 树 信息 


} kvroute t; 


static int 
s snapshots (zloop t *loop, void *snapshot, void *args) 


( 


clonesrv t *self - (clonesrv t *) args; 


zframe t *identity - zframe recv (snapshot); 


if (identity) (1 
// ”请 求 位 于 消息 第 二 帧 
char *request = 


zstr_recv (snapshot); 


char *subtree - NULL; 

if (streq (request, "ICANHAZ?")) ( 
free (request); 
subtree - zstr recv (snapshot); 

j 

else 
printf ("E: 错误 的 请 求 ， 程 序 中 止 \n")， 


if (subtree) { 
// 发 送 状 态 快照 
kvroute t routing = ( snapshot, identity, subtree }; 
zhash foreach (self--kvmap, s send single, &routing); 


// 发 送 结束 符 和 版 本 号 
zclock log ("I: 正在 发 送 快照 ， 版 本 号 :%d", (int) self->seq 
zframe send (&identity, snapshot, ZFRAME MORE); 
kvmsg t *kvmsg = kvmsg new (self-»sequence); 
kvmsg set key (kvmsg, "KTHXBAI"); 
kvmsg set body (kvmsg, (byte *) subtree, 0); 
kvmsg send (kvmsg, snapshot); 
kvmsg destroy (&kvmsg); 
free (subtree); 
j 
j 


return 0; 


// 每 次 发 送 一 个 快照 键 值 对 
static int 
s send single (char *key, void *data, void *args) 


( 


// 
// 


kvroute t *kvroute = (kvroute t *) args; 
kvmsg t *kvmsg = (kvmsg t *) data; 
if (strlen (kvroute-»subtree) <= strlen (kvmsg key (kvmsg)) 
&& memcmp (kvroute-»subtree, 
kvmsg key (kvmsg), strlen (kvroute-»subtree)) == 0 
// ” 先 发 送 接收 方 标识 
zframe_send (&kvroute->identity, 
kvroute->socket, ZFRAME MORE + ZFRAME REUSE); 
kvmsg. send (kvmsg, kvroute-»socket); 


return 0; 


收集 更 新 事件 


static int 
s collector (zloop t *loop, void *collector, void *args) 


{ 


clonesrv_t *self = (clonesrv_t *) args; 


kvmsg t *kvmsg - kvmsg recv (collector); 
if (kvmsg) { 

kvmsg set sequence (kvmsg, --*self-»sequence); 

kvmsg send (kvmsg, self-»publisher); 

int ttl = atoi (kvmsg get prop (kvmsg, "ttl1")); 

if (ttl) 

kvmsg_set_prop (kvmsg, "ttl", 
"9%" PRId64, zclock time () + ttl * 1000); 
kvmsg store (&kvmsg, self-»-kvmap); 
zclock log ("I: 正在 发 布 更 新 事件 *«d", (int) self-»sequence); 


return 0; 


pnl 
// 删除 过 期 的 瞬间 值 


static int s flush single (char *key, void *data, void *args); 


static int 
s flush ttl (zloop t *loop, void *unused, void *args) 
1 
clonesrv t *self - (clonesrv t *) args; 
zhash foreach (self-»-kvmap, s flush single, args); 
return 0; 


} 


// ”删除 过 期 的 键 值 对 ， 并 广播 该 事件 

static int 

s flush single (char *key, void *data, void *args) 
{ 


clonesrv t *self = (clonesrv t *) args; 


kvmsg t *kvmsg = (kvmsg t *) data; 
inte4 t ttl; 
sscanf (kvmsg get prop (kvmsg, "ttl"), "%" PRId64, &ttl); 
if (ttl && zclock time () >= ttl) { 
kvmsg set sequence (kvmsg, --*self-»sequence); 
kvmsg set body (kvmsg, (byte *) "", 0); 
kvmsg send (kvmsg, self-»publisher); 
kvmsg store (&kvmsg, self-»-kvmap); 
zclock log ("I: Xp %d", (int) self-»sequence); 
} 


return 0; 





克隆 服务 器 的 可 靠 性 


克隆 模型 1 至 5 相对 比较 简单 ， 下 面 我 们 会 探讨 一 个 非常 复杂 的 模型 。 可 以 发 现 ， 为 
了 构建 可 靠 的 消息 队列 ， 我 们 需要 花费 非常 多 的 精力 。 所 以 我 们 经 常会 问 : 有 必要 
这 么 做 吗 ? 如 果 说 你 能 够 接受 可 靠 性 不 够 高 的 、 或 者 说 已 经 足够 好 的 架构 ， 那 恭 喜 
你 ， 你 在 成 本 和 收益 之 间 找 到 了 平衡 。 虽 然 我 们 会 偶尔 丢失 一 些 消 息 ， 但 从 经 济 的 
角度 来 说 还 是 合理 的 。 不 管 怎样 ， 下 面 我 们 就 来 介绍 这 个 复杂 的 模型 。 

在 模型 3 中 ， 你 会 关闭 和 重启 服务 ， 这 会 导致 数据 的 丢失 。 任 何 后 续 加 入 的 客户 端 
只 能 得 到 重启 之 后 的 那些 数据 ， 而 非 所 有 的 。 下 面 就 让 我 们 想 办 法 让 克隆 模式 能 4 
承担 服务 器 重启 的 故障 。 

以 下 列举 我 们 需要 处 理 的 问题 : 

e 克隆 服务 器 进程 崩溃 并 自动 或 手工 重启 。 进 程 丢失 了 所 有 数据 ， 所 以 必须 从 别 
处 进行 恢复 。 

e 克隆 服务 器 硬件 故障 ， 长 时 间 不 能 恢复 。 客 户 端 需要 切换 至 另 一 个 可 用 的 服务 
端 。 

e 克隆 服务 器 从 网 络 上 断 开 ， 如 交换 机 发 生 故 障 等 。 它 会 在 某 个 时 点 重 连 ， 但 期 
间 的 数据 就 需要 替代 的 服务 器 负责 处 理 。 

第 一 步 我 们 需要 增加 一 个 服务 器 。 我 们 可 以 使 用 第 四 章 中 提 到 的 双子 星 模式 ， 它 是 
一 个 反应 堆 ， 而 我 们 的 程序 经 过 整理 后 也 是 一 个 反应 堆 ， 因 此 可 以 互相 协作 。 

我 们 需要 保证 更 新 事件 在 主 服务 器 崩溃 时 仍 能 保留 ， 最 简单 的 机 制 就 是 同时 发 送 给 
两 台 服 务 器 。 

备 机 就 可 以 当做 一 台 客户 端 来 运行 ， 像 其 他 客户 端 一 样 从 主机 获取 更 新 事件 。 同 时 
它 又 能 从 客户 端 获取 更 新 事件 一 虽然 不 应 该 以 此 更 新 数据 ， 但 可 以 先 暂 存 起 来 。 
所 以 ， 相 较 于 模型 5， 模 型 6 中 引入 了 以 下 特性 : 

e 客户 端 发 送 更 新 事件 改 用 PUB-SUB 套 接 字 ， 而 非 PUSH-PULL 。 原 因 是 PUSH 
套 接 字 会 在 没有 接收 方 时 阻塞 ， 且 会 进行 负载 均衡 一 ”我 们 需要 两 台 服 务 器 都 
接收 到 消息 。 我 们 会 在 服务 器 端 绑 定 SUB 套 接 字 ， 在 客户 端 连 接 PUB 和 套 接 字 。 

e 我 们 在 服务 器 发 送 给 客户 端的 更 新 事件 中 加 入 心跳 ， 这 样 客户 端 可 以 知道 主机 
是 否 已 死 ， 然 后 切换 至 备 机 。 

e 我 们 使 用 双子 星 模式 的 bstar 反 应 堆 类 来 创建 主机 和 备 机 。 双 子 星 模 式 中 需要 有 
一 个 “投票 " 套 接 字 ， 来 协助 判定 对 方 节点 是 否 已 死 。 这 里 我 们 使 用 快照 请 求 来 
作为 “投票 ”。 

e 我 们 将 为 所 有 的 更 新 事件 添加 UUID 属 性 ， 它 由 客户 端 生 成 ， 服 务 端 会 将 其 发 
布 给 所 有 客户 端 。 

e 备 机 将 维护 一 个 “ 待 处 理 列 表 ”， 保 存 来 自 客 户 端 、 尚 未 由 服务 端 发 布 的 更 新 事 
fF; 或 者 反 过 来 ， 来 自 服务 端 、 尚未 从 客户 端 收 到 的 更 新 事件 。 这 个 列表 从 昌 
到 新 排列 ， 这 样 就 能 方便 地 从 顶部 删除 消息 。 


我 们 可 以 为 客户 端 设 计 一 个 有 限 状态 机 ， 它 有 三 种 状态 : 


e 客户 端 打开 并 连接 了 套 接 字 ， 然 后 向 服务 端 发 送 快照 请 求 。 为 了 避免 消息 风 
9 它 A 


只 会 请 求 两 次 。 


e 客户 端 等 待 快照 应 答 ， 如 果 获 得 了 则 保存 它 ; 如 果 没 有 获得 ， 则 向 第 二 个 服务 
器 发 送 请 求 。 


e 客户 端 收 到 快照 ， 便 开 始 等 待 更 新 事件 。 如 果 在 一 定时 间 内 没有 收 到 服务 端 响 
应 ， 则 会 连接 第 二 个 服务 端 。 


客户 端 会 一 直 循 环 下 去 ， 可 能 在 程序 刚 启 动 时 ， 部 分 客户 端 会 试图 连接 主机 ， 部 分 
连接 备 机 ， 相 信 双 子 星 村 一 情 ia 


我 们 可 以 将 客户 端 状态 图 绘制 出 来 : 
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Figure6 — Clone client FSM 


故障 恢复 的 步骤 如 下 : 


e 客户 端 检 测 到 主机 不 再 发 送 心跳 ， 因 此 转 而 连接 备 机 ， 并 请 求 一 份 新 的 快照 ; 
e 备 机 开始 接收 快照 请 求 ， 并 检测 到 主机 死亡 ， 于 是 开始 作为 主机 运行 ; 
e 备 机 将 待 处 理 列表 中 的 更 新 事件 写 入 自身 状态 中 ， 然 后 开始 处 理 快照 请 求 。 


当主 机 恢复 连接 时 : 


启动 为 slave 状 态 ， 并 作为 克隆 模式 客户 端 连接 备 机 ; 
e . EH 使 用 SUB 套 接 字 从 客户 端 接收 更 新 事件 。 


我 们 做 两 点 假设 : 


e 至 少 有 一 台 主 机 会 继续 运行 。 如 果 两 台 主 机 都 前 溃 了 ， 那 我 们 将 丢失 所 有 的 服 
务 端 数据 ， 无 法 恢复 。 
oae o ues ON Diac qe Rep QUIAE uu eu EN 
， 因 此 更 新 的 顺序 可 能 会 不 一 致 。 单 个 客户 端的 更 新 事件 到 达 两 台 服务 
序 是 相同 的 ， ucc 


下 面 是 整体 架构 图 : 
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开始 编程 之 前 ， 我 们 需要 将 客户 端 重 构成 一 个 可 复 用 的 类 。 在 ZMQ 中 写 异 步 类 有 时 
是 为 了 练习 如 何 写 出 优雅 的 代码 ， 但 这 里 我 们 确实 是 希望 克隆 模式 可 以 成 为 一 种 易 
于 使 用 的 程序 。 上 述 架 构 的 伸缩 性 来 源 于 客户 端的 正确 行为 ， 因 此 有 必要 将 其 封装 
成 一 份 APl。 要 在 客户 端 中 进行 故障 恢复 还 是 比较 复杂 的 ， 试 想 一 下 自由 者 模式 和 
克隆 模式 结合 起 来 会 是 什么 样 的 吧 。 


按照 我 的 习惯 ， 我 会 先 写 出 一 份 API 的 列表 ， 然 后 加 以 实现 。 让 我 们 假想 一 个 名 为 
clone 的 API， 在 其 基础 之 上 编写 克隆 模式 客户 端 API。 将 代码 封装 为 API 显 然 会 提升 
代码 的 稳定 性 ， 就 以 模型 5 为 例 ， 客 户 端 需要 打开 三 个 套 接 字 ， 端 点 名 称 直接 写 在 
了 代码 里 。 我 们 可 以 创建 这 样 一 组 API : 


// 为 每 个 套 接 字 指 定 端点 

clone subscribe (clone, "tcp://localhost:5556"); 
clone snapshot (clone, "tcp://localhost:5557"); 
clone updates (clone, "tcp://localhost:5558"); 


// 由 于 有 两 个 服务 端 ， 因 此 再 执行 一 次 

clone subscribe (clone, "tcp://localhost:5566"); 
clone snapshot (clone, "tcp://localhost:5567"); 
clone updates (clone, "tcp://localhost:5568"); 


但 这 种 写法 还 是 比较 鹃 嗪 的 ， 因 为 没有 必要 将 API 内 部 的 一 些 设 计 暴 露 给 编程 人 
员 。 现 在 我 们 会 使 用 三 个 套 接 字 ， 而 将 来 可 能 就 会 使 用 两 个 ， 或 者 四 个 。 我 们 不 可 
能 让 所 有 的 应 用 程序 都 相应 地 修改 吧 ? 让 我 们 把 这 些 信息 包装 到 API 中 : 


// 指定 主 备 服务 器 端点 
clone connect (clone, "tcp://localhost:5551"); 
clone connect (clone, "tcp://localhost:5561"); 


这 样 一 来 代码 就 变 得 非常 简洁 ， 不 过 也 会 对 现 有 代码 的 内 部 就 够 造成 影响 。 我 们 需 
要 从 一 个 端点 中 推 自 出 三 个 端点 。 一 种 方法 是 假设 客户 端 和 服务 端 使 用 三 个 连续 的 
端点 通信 ， 并 将 这 个 规则 写 入 协议 ; 另 一 个 方法 是 向 服务 器 索取 缺少 的 端点 信息 。 
我 们 使 用 第 一 种 较为 简单 的 方法 : 


e 服务 器 状态 ROUTER 在 端点 P ; 
e 服务 器 器 更 新 事件 PUB 在 端 点 P+1 
e 服务 器 更 新 事件 SUB 在 端点 P+2。 


clone 类 和 第 四 章 的 flcliapi 类 很 类 似 ， 由 两 部 分 组 成 : 


e 一 个 在 后 台 运 行 的 异步 克隆 模式 代理 。 该 代理 处 理 所 有 的 IO 操作 ， 实 时 地 和 服 
务 器 进行 通信 ; 

e 一 个 在 前 台 应 用 程序 中 同步 运行 的 clone 类 。 当 你 创建 了 一 个 clone 对 象 后 ， 
会 自动 创建 后 各 的 alone 线程: ; 当 你 销毁 clone 对 象 ， 该 后 台 线 程 也 会 被 销毁 。 


LES RP Qu edo 的 代理 进行 通信 。C 语 言 中 ，czmq 线 程 会 自 
动 为 我 们 创建 这 个 管道 。 这 也 是 ZMQ 多 线程 编程 的 常规 方式 。 


如 果 没 有 ZMQ， 这 种 异步 的 设计 将 很 难处 理 高 压 工 作 ， 而 ZMQ 会 让 其 变 得 简单 。 
编写 出 来 额 代码 会 相对 比较 复杂 。 我 们 可 以 用 反应 堆 的 模式 来 编写 ， 但 这 会 进一步 
增加 复杂 度 ， 且 影响 应 用 程序 的 使 用 。 因 此 ， 我 们 的 设计 的 API 将 更 像 是 一 个 能 够 
和 服务 器 进行 通信 的 键 值 表 : 


clone t *clone new (void); 

void clone destroy (clone t **self p); 

void clone connect (clone t *self, char *address, char *service); 
void clone set (clone t *self, char *key, char *value); 

char *clone get (clone t *self, char *key); 


E 


下 面 就 是 克隆 模式 客户 端 模型 6 的 代码 ， 因 为 调用 了 API， 所 以 非常 简短 
clonecli6: Clone client, Model Six in C 


// 
// ”克隆 模式 - 客户 端 - 模型 6 
Mi 


// 直接 编译 ， 不 建 类 库 
Zinclude "clone.c" 


4define SUBTREE "/client/" 


int main (void) 


i 

// ”创建 分 布 式 哈 希 表 

clone t *clone = clone new (); 

// 配置 

clone subtree (clone, SUBTREE); 

clone connect (clone, "tcp://localhost", '"5556"); 

clone connect (clone, "tcp://localhost", "5566"); 

// ”插入 随机 键 值 

while (!zctx interrupted) ( 
// 生成 随机 值 
char key [255]; 
char value [10]; 
sprintf (key, "%s%d", SUBTREE, randof (10000)); 
sprintf (value, "9d", randof (1000000)); 
clone set (clone, key, value, randof (30)); 
sleep (1); 

} 

clone destroy (&clone); 

return 0; 

} 


以 下 是 clone 类 的 实现 : clone: Clone class inC 


Copyright (c) 1991-2011 iMatix Corporation «www.imatix.com» 
Copyright other contributors as noted in the AUTHORS file. 


This file is part of the ZeroMQ Guide: http://zguide.zeromq.ort 


This is free software; you can redistribute it and/or modify i! 
the terms of the GNU Lesser General Public License as publishet 
the Free Software Foundation; either version 3 of the License, 
your option) any later version. 


This software is distributed in the hope that it will be usefu- 
WITHOUT ANY WARRANTY; without even the implied warranty of 


ZMQ 指南 


MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GI 
Lesser General Public License for more details. 


You should have received a copy of the GNU Lesser General Publ: 
License along with this program. If not, see 
«http: //www.gnu.org/licenses/». 


27 
#include "clone.h" 
// 请 求 超时 时 间 


Zdefine GLOBAL TIMEOUT 4000 // msecs 
// 判定 服务 器 死亡 的 时 间 


Zdefine SERVER TTL 50900 // msecs 

// 服务 器 数量 

#define SERVER MAX 2 

JL yt E iie m rr gemi pe e emer eere er e eie S eem ee 


struct —clone t 1 

ZEC EEC EX, J Zo 

void *pipe; // ”和 后 台 代 理 间 的 通信 和 套 接 字 
}; 


// ”该 线程 用 于 处 理 盖 正 的 clone 类 
static voXsd clone-agent (von ^ards, zcEx-t *ctx, voud. PIPE) 


A e —— —Á—Á ———— QI 
// ”构造 函数 


clone t * 
clone new (void) 
i 
clone t 
*self; 


self - (clone t *) zmalloc (sizeof (clone t)); 
self-»ctx = zctx new (); 


self-»pipe = zthread fork (self->ctx, clone agent, NULL); 
return self; 


se 
// MARK 


void 
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clone destroy (clone t **self p) 


1 
assert (self p); 
if (*self py 
clone t *self = *self p; 
zctx destroy (&self-»ctx); 
free (self); 
*self p - NULL; 
} 
} 
// ----------------------------------------------------- 


// 在 链接 之 前 指定 快照 和 更 新 事件 的 子 树 
// 发 送 给 后 台 代 理 的 消息 内 容 为 [SUBTREE][subtree] 


void clone subtree (clone t *self, char *subtree) 


1 
assert (self); 
zmsg t *msg - zmsg new (); 
zmsg addstr (msg, "SUBTREE"); 
zmsg addstr (msg, subtree); 
zmsg send (&msg, self-»pipe); 
} 
// ------------------ nnn 


// ”连接 至 新 的 服务 器 端点 
// 消息 内 容 : [CONNECT] [endpoint] [service] 


void 
clone connect (clone t *self, char *address, char *service) 
{ 

assert (self); 

zmsg t *msg = zmsg new (); 

zmsg addstr (msg, "CONNECT"); 

zmsg addstr (msg, address); 

zmsg addstr (msg, service); 

zmsg send (&msg, self-»pipe); 


} 
WI 
// ”设置 新 值 

// 消息 内 容 : [SET][key][value][tt1] 

void 


clone set (clone t *self, char *key, char *value, int ttl) 
{ 

char ttlstr [10]; 

sprainbT (thlstr, "d" TEL) 


assert (self); 

zmsg t *msg - zmsg new (); 
zmsg addstr (msg, "SET"); 
zmsg addstr (msg, key); 


zmsg addstr (msg, value); 
zmsg addstr (msg, ttlstr); 
zmsg send (&msg, self-»pipe); 


// PAE 
// ”消息 内 容 : [GET][key] 
// ”如 果 没 有 clone 可 用 ， 会 返回 NULL 


char * 
clone get (clone t *self, char *key) 
1 

assert (self); 

assert (key); 

zmsg t *msg - zmsg new (); 

zmsg addstr (msg, "GET"); 

zmsg addstr (msg, key); 

zmsg send (&msg, self-»pipe); 


zmsg t *reply - zmsg recv (self-»pipe); 
if (reply) { 
char *value = zmsg_popstr (reply); 
zmsg_destroy (&reply); 
return value; 


} 
return NULL; 


// 单个 服务 端 信息 


typedef struct { 








char *address; // 服务 端 地 址 

int port; // ”端口 

void *snapshot; // ”快照 套 接 字 

void *subscriber; // 接收 更 新 事件 的 套 接 字 
uint64 t expiry; // ”服务 器 过 期 时 间 

uint requests; // 收 到 的 快照 请 求 数 


) server t; 


static server t * 
server new (zctx t *ctx, char *address, int port, char "*subtree) 


{ 


server_t *self = (server_t *) zmalloc (sizeof (server_t)); 


zclock_log ("I: adding server %s:%d...", address, port); 
self->address = strdup (address); 
self->port = port; 


self-»-snapshot = zsocket new (ctx, ZMQ DEALER); 
zsocket connect (self-»snapshot, "%s:%d", address, 
self-»-subscriber = zsocket new (ctx, ZMQ SUB); 
zsocket connect (self-»subscriber, "%s:%d", address, port + 1), 


port); 


zsockopt set subscribe (self-»subscriber, subtree); 
return self; 
} 
static void 
server destroy (server t **self p) 
{ 
assert (self p); 
if (*self-p) f 
server t *self - *self p; 
free (self-»address); 
free (self); 
*self p - NULL; 
} 
} 
// ------------------------- rr 
// ERNER 
// 状态 
Zdefine STATE INITIAL 0 // 连接 之 前 
Zdefine STATE SYNCING 1 // 正在 同步 
Zdefine STATE ACTIVE 2 // 正在 更 新 
typedef struct { 
ZC OX p Ctx EE qus 
void *pipe; // ”与 主线 程 通信 的 套 接 字 
zhash_t *kvmap; // RER 
char *subtree; //. TA 


server_t *server [SERVER_MAX]; 





uint nbr_servers; // 范围 :9 - SERVER MAX 
uint state; // 当前 状态 
uint cur server; // ”当前 master > 0/1 
int64 t sequence; // 键 值 对 编号 
void *publisher; // 发 布 更 新 事件 的 套 接 字 

) agent t; 

static agent t * 

agent new (Zctx t Ctx void pipe) 


{ 
agent t *self = (agent t *) zmalloc (sizeof (agent t)); 
self-»ctx = ctx; 
self->pipe = pipe; 


self->kvmap = zhash_new (); 

self->subtree = strdup (""); 

self->state = STATE_INITIAL; 

self->publisher = zsocket_new (self->ctx, ZMQ_PUB); 
return self; 


j 


static vord 
agent destroy (agent t **self p) 


1 
assert (self p); 
if (*self p) ( 
agent t *self = *self p; 
int server nbr; 
for (server nbr = 0; server nbr < self-»nbr servers; servel 
server destroy (&self-»server [server nbr]); 
zhash destroy (&self-»kvmap); 
free (self-»subtree); 
free (self); 
*self p - NULL; 
J 
j 


// ”车 线程 被 中 断 则 返回 -1 
Statte nt 
agent control message (agent t *self) 
{ 
zmsg t *msg = zmsg recv (self->pipe); 
char *command - zmsg popstr (msg); 
if (command -- NULL) 
fae tum 


if (streq (command, "SUBTREE")) { 
free (self-»subtree); 
self-»-subtree = zmsg popstr (msg); 
} 
else 
if (streq (command, "CONNECT")) { 
char *address - zmsg popstr (msg); 
char *service - zmsg popstr (msg); 
if (self-»nbr servers < SERVER MAX) ( 
self-»server [self-»nbr servers-*-*] = server new ( 
self-»ctx, address, atoi (service), self-»subtree), 
// 广播 更 新 事件 
zsocket connect (self-»publisher, "96s:96d", 
address, atoi (service) + 2); 
} 
else 
zclock log ("E: too many servers (max. %d)", SERVER MA 
free (address); 
free (service); 
} 
else 
if (streq (command, "SET")) ( 
char *key - zmsg popstr (msg); 
char *value - zmsg popstr (msg); 
char *ttl = zmsg popstr (msg); 
zhash update (self-»-kvmap, key, (byte *) value); 


zhash freefn (self-»-kvmap, key, free); 


NA 向 服务 端 发 送 键 值 对 
kvmsg t *kvmsg = kvmsg new (9); 
kvmsg set key (kvmsg, key); 
kvmsg. set uuid (kvmsg); 
kvmsg fmt body (kvmsg, "9s", value); 
kvmsg set prop (kvmsg, "ttl", ttl); 
kvmsg. send (kvmsg, self-»publisher); 
kvmsg. destroy (&kvmsg); 
puts (key); 
free (tt1); 
free (key); // fA E ER d re A E EI 
J 
else 
if (streq (command, "GET")) ( 
char *key - zmsg popstr (msg); 
char *value = zhash lookup (self-»-kvmap, key); 
if (value) 
zstr send (self-»pipe, value); 
else 
zstr send (self-»pipe, ""); 
free (key); 
free (value); 
} 
free (command); 
zmsg destroy (&msg); 


iet uim) 
} 
(E nsona isoon sns on adoon aonan iosaid 
// 异步 的 后 台 代 理会 维护 一 个 服务 端 池 ， 并 处 理 来 自 应 用 程序 的 请 求 或 应 答 。 


static void 
clone agent (void *args, zctx t *ctx, void *pipe) 


í 


agent_t *self = agent_new (ctx, pipe); 


while (TRUE) { 


zmq pollitem t poll set [] = { 
{ pipe, ©, ZMQ POLLIN, © Jj, 
{ 0, O, ZMQ POLLIN, © } 


J; 
int poll_timer = -1; 
int poll_size = 2; 
server_t *server = self->server [self->cur_server]; 
switch (self->state) { 
case STATE_INITIAL: 
// 该 状态 下 ， 如 果 有 可 用 服务 ， 会 发 送 快照 请 求 
if (self-»nbr servers > 0) ( 
zclock log ("I: 正在 等 待 服务 器 9*s:*d...", 
server-»address, server-»port); 


if (server-»requests < 2) { 


zstr sendm (server-»snapshot, "ICANHAZ?'"); 
zstr send (server-»snapshot, self-»subtre« 


server-»requests-e-*; 


j 


server-»expiry = zclock time () + SERVER TTL; 


self-»2state = STATE SYNCING; 
poll set [i].socket = server-»snapshot; 
} 
else 
poll size = 1; 
break; 
case STATE SYNCING: 


// ”该 状态 下 我 们 从 服务 器 端 接收 快照 内 容 ， 若 失败 则 尝试 其 他 用 


poll set [1].socket = server-»snapshot; 
break; 
case STATE ACTIVE: 


// 该 状态 下 我 们 从 服务 器 获取 更 新 事件 ， 失 败 则 尝试 其 他 服务 


poll set [i].socket = server- XM Open 
break; 


if (server) ( 
poll timer = (server-»expiry - zclock time ()) 
* ZMQ POLL MSEC; 
if (poll timer < 0) 
poll timer = 0; 


j 

// ------------ 
// po11 循 环 

int rc = zmq poll (poll set, poll size, poll timer); 

AF (re == 41) 


break; // kTxEXXH 


if (poll set [0].revents & ZMQ POLLIN) ( 
if (agent control message (self)) 
break; // P% 
} 
else 
if (poll set [i].revents & ZMQ POLLIN) ( 
kvmsg t *kvmsg - kvmsg recv (poll set [1].socket); 


if (!kvmsg) 
break; // PH 
// 任何 服务 端的 消息 将 重 置 它 的 过 期 时 间 


server-»expiry = Aoi Du + SERVER TTE; 
if (self->state -- STATE SYNCING) ( 
// 保存 快照 内 容 
server-»requests = 0; 
if (streq (kvmsg key (kvmsg), "KTHXBAI")) { 
self-»-sequence = kvmsg sequence (kvmsg); 
self-»-state = STATE ACTIVE; 


gu 
Zs 
zm 


zclock log ("I: received from %s:%d snapshot-?« 


server-»address, server-»port, 


(int) self-»sequence); 
kvmsg. destroy (&kvmsg); 
} 
else 
kvmsg store (&kvmsg, self->kvmap); 
} 
else 
if (self->state == STATE_ACTIVE) { 


1 € Xm 3 4 


if (kvmsg sequence (kvmsg) > self-»sequence) ( 
self-»-sequence = kvmsg sequence (kvmsg); 
kvmsg store (&kvmsg, self-»-kvmap); 
zclock log ("I: received from %s:%d update=%d", 
server-»address, server-»port, 
(int) self-»sequence); 


} 
else 
kvmsg. destroy (&kvmsg); 
} 
} 
else ( 
zclock log ("I: 服务 器 %s:%d 无 响应 "， 
server-»address, server-»port); 
self-»cur server = (self-»cur server + 1) % self-»nbr : 
self-»5state = STATE INITIAL; 
} 


} 
agent destroy (&self); 





最 后 是 克隆 服务 器 的 模型 6 代码 : 


clonesrv6: Clone server Model Six in C 


// 
// 克隆 模式 - 服务 端 - 模型 6 
// 


// 直接 编译 ， 不 建 类 库 
Zinclude "bstar.c" 
Zinclude "kvmsg.c" 


// bstar 反 应 堆 API 

static int s snapshots (zloop t *loop, void *socket, void *args); 
static int s collector (zloop t *loop, void *socket, void *args); 
static int s flush ttl (zloop t *loop, void *socket, void *args); 
static int s send hugz (zloop t *loop, void *socket, void *args); 
static int s new master (zloop t *loop, void *unused, void *args); 
static int s new slave (zloop t *loop, void *unused, void *args); 
static int s subscriber (zloop t *loop, void *socket, void *args); 


// 服务 端 属性 
typedef struct ( 


EX Esc 

zhash t *kvmap; // ”存放 键 值 对 

bstar t *bstar; // bstarA E J& Jk «s 
int64 t sequence; // 更 新 事件 编号 

int port; // iiu 

int peer; // 同伴 端口 

void *publisher; // 发布 更 新 事件 的 端口 
void *collector; // 接收 客户 端 更 新 事件 的 端口 
void *subscriber; // 接受 同伴 更 新 事件 的 端口 
zlist t *pending; // 延迟 的 更 新 事件 

Bool primary; // 是 否 为 主机 

Bool master; // 是 否 为 master 

Bool slave; // ”是 否 为 slave 


} clonesrv t; 


int main (int argc, char *argv []) 
{ 
clonesrv t *self = (clonesrv t *) zmalloc (sizeof (clonesrv_t). 
if (argc == 2 && streq (argv [1], "-p")) ( 
zclock log ("I: 作为 主机 master 运 行 ， 正 在 等 待 备 机 slave 连 接 。")， 
self->bstar = bstar new (BSTAR PRIMARY, "tcp://*:5003", 
"tcp://1localhost:5004"); 
bstar voter (self-»bstar, "tcp://*:5556", ZMQ ROUTER, 
s snapshots, self); 
self-»port = 5556; 
self-»peer = 5566; 
self-»-primary = TRUE; 
} 
else 
if (argc == 2 && streq (argv [1], "-b")) ( 
zclock log ("I: 作为 备 机 slave 运 行 ， 正 在 等 待 主机 master 连 接 。")， 
self->bstar = bstar new (BSTAR BACKUP, "tcp://*:5004", 
"tcp://1localhost:5003"); 
bstar voter (self-»bstar, "tcp://*:5566", ZMQ ROUTER, 
s snapshots, self); 
self-»port = 5566; 
self-»peer = 5556; 
self-»primary = FALSE; 
} 
else ( 
printf ("Usage: clonesrv4 { -p | -b jn"); 
free (self); 
exit (0); 


y 
// 主机 将 成 为 naster 
if (self-»primary) 
self-»-kvmap = zhash new (); 


self-»ctx = zctx new (); 


self-»-pending = zlist new (); 
bstar set verbose (self-»bstar, TRUE); 


// 设置 克隆 服务 端 套 接 字 

self-»publisher = zsocket new (self->ctx, ZMQ_PUB); 
self-»-collector = zsocket new (self->ctx, ZMQ_SUB); 

zsocket bind (self-»publisher, "tcp://*:%d", self->port + 1); 
zsocket bind (self-»-collector, "tcp://*:%d", self-»port + 2); 


// ”作为 克隆 客户 端 连接 同伴 
self->subscriber = zsocket new (self->ctx, ZMQ SUB); 
zsocket connect (self-»subscriber, "tcp://localhost:9?wd", self-: 


// ”注册 状态 事件 处 理 器 
bstar new master (self->bstar, s new master, self); 
bstar new slave (self-»bstar, s new slave, self); 


// 注册 bstar 反 应 堆 其 他 事件 处 理 器 

zloop reader (bstar zloop (self-»-bstar), self-»collector, s co. 
zloop timer  (bstar zloop (self-»-bstar), 1000, ©, s flush ttl, 
zloop timer  (bstar zloop (self-»-bstar), 1000, 0, s send hugz, 


// 开启 bstar 反 应 堆 
bstar start (self-»bstar); 


// PH> Reo 

while (zlist_size (self->pending)) { 
kvmsg_t *kvmsg = (kvmsg_t *) zlist_pop (self->pending); 
kvmsg_destroy (&kvmsg); 

} 

zlist destroy (&self-»pending); 

bstar destroy (&self-»bstar); 

zhash destroy (&self-»-kvmap); 

zctx destroy (&self-»ctx); 

free (self); 


return 0; 


// 发 送 快照 内 容 
static int s send single (char *key, void *data, void *args); 


// ”请 求 方 信息 
typedef struct ( 


void *socket; // ROUTER 套 接 字 
zframe t *identity; // ”请 求 放 标 识 
char *subtree; // CP 


} kvroute t; 


static int 


s snapshots (zloop t *loop, void *snapshot, void *args) 


{ 


clonesrv_t *self = (clonesrv_t *) args; 


zframe_t *identity = zframe_recv (snapshot); 
if (identity) { 
// ”请 求 在 消息 的 第 二 帧 中 
char *request = zstr recv (snapshot); 
char *subtree - NULL; 
if (streq (request, "ICANHAZ?")) ( 
free (request); 
subtree - zstr recv (snapshot); 
} 
else 
printf ("E: 错误 的 请 求 ， 正 在 退出 ....\n"); 


if (subtree) { 
// ”发 送 状 态 快 昭 
kvroute t routing = ( snapshot, identity, subtree }; 
zhash foreach (self--kvmap, s send single, &routing); 


// 发 送 终止 消息 ， 以 及 消息 编号 
zclock log ("I: 正在 发 送 快照 ， 版 本 号 : %d"， (int) self-»seq 
zframe send (&identity, snapshot, ZFRAME MORE); 
kvmsg t *kvmsg = kvmsg new (self-»sequence); 
kvmsg set key (kvmsg, "KTHXBAI"); 
kvmsg set body (kvmsg, (byte *) subtree, 0); 
kvmsg send (kvmsg, snapshot); 
kvmsg destroy (&kvmsg); 
free (subtree); 
j 
} 


return 0; 


// 每 次 发 送 一 个 快照 键 值 对 
static int 
s send single (char *key, void *data, void *args) 
f 
kvroute t *kvroute - (kvroute t *) args; 
kvmsg t *kvmsg = (kvmsg t *) data; 
if (strlen (kvroute-»subtree) <= strlen (kvmsg key (kvmsg)) 
&&  memcmp (kvroute-»subtree, 
kvmsg key (kvmsg), strlen (kvroute-»subtree)) -- 
// ” 先 发 送 接收 方 的 地 址 
zframe_send (&kvroute->identity, 
kvroute->socket, ZFRAME MORE + ZFRAME REUSE); 
kvmsg send (kvmsg, kvroute-»socket); 


} 


return 0; 


De a E a 
// ”从 客户 端 收 集 更 新 事件 

// ”如 果 我 们 是 master， 则 将 该 事件 写 入 kvmap 对 象 ; 

// ”如 果 我 们 是 slave， 则 将 其 写 入 延迟 队列 


static int s was pending (clonesrv t *self, kvmsg t *kvmsg); 


static int 
s collector (zloop t *loop, void *collector, void *args) 


{ 


clonesrv_t *self = (clonesrv_t *) args; 


kvmsg_t *kvmsg = kvmsg_recv (collector); 

kvmsg_dump (kvmsg); 

if (kvmsg) { 

if (self->master) { 
kvmsg set sequence (kvmsg, ++self->sequence); 
kvmsg send (kvmsg, self-»publisher); 
int ttl = atoi (kvmsg get prop (kvmsg, "ttl")); 
r Est d) 
kvmsg set prop (kvmsg, "ttl", 
"9$" PRId64, zclock time () + ttl * 1000); 

kvmsg store (&kvmsg, self-»kvmap); 
zclock log ("I: 正在 发 布 更 新 事件 : %d"， (int) self-»-sequen 


} 
else ( 
// ”如 果 我 们 已 经 从 master 中 获得 了 该 事件 ， 则 丢弃 该 消息 
if (s was pending (self, kvmsg)) 
kvmsg destroy (&kvmsg); 
else 
zlist append (self-»pending, kvmsg); 
j 
} 
return 0; 


d 
// ”如 果 消 息 已 在 延迟 队列 中 ， 则 删除 它 并 返回 TRUE 


static int 
s was pending (clonesrv t *self, kvmsg t *kvmsg) 
{ 
kvmsg t *held = (kvmsg t *) zlist first (self->pending); 
while (held) { 
if (memcmp (kvmsg uuid (kvmsg), 
kvmsg uuid (held), sizeof (uuid t)) == 0) ( 
zlist remove (self-»pending, held); 
return TRUE; 


held = (kvmsg t *) zlist next (self-»pending); 


} 
return FALSE; 


Sp TORA EERO EITO Manehr mn re 
// 删除 带 有 过 期 时 间 的 瞬间 值 


static int s flush single (char *key, void *data, void *args); 


static int 
s flush ttl (zloop t *loop, void *unused, void *args) 
{ 
clonesrv t *self = (clonesrv t *) args; 
zhash foreach (self--kvmap, s flush single, args); 
return 0; 


j 


// ”如 果 键 值 对 过 期 ， 则 进行 删除 操作 ， 并 广播 该 事件 

static int 

s flush single (char *key, void *data, void *args) 
{ 


clonesrv t *self = (clonesrv t *) args; 


kvmsg t *kvmsg = (kvmsg t *) data; 
int64 t ttl; 
sscanf (kvmsg get prop (kvmsg, "ttl"), "9?" PRId64, &ttl); 
if (ttl && zclock time () >= ttl) { 
kvmsg set sequence (kvmsg, --self-»sequence); 
kvmsg set body (kvmsg, (byte *) "", 0); 
kvmsg send (kvmsg, self-»publisher); 
kvmsg store (&kvmsg, self-»kvmap); 
zclock log ("I: 正在 发 布 删除 事件 : %d"， (int) self-»sequence); 


return 0; 


1 
// ”发 送 心跳 


static int 
s send hugz (zloop t *loop, void *unused, void *args) 


{ 


clonesrv_t *self = (clonesrv_t *) args; 


kvmsg_t *kvmsg = kvmsg_new (self->sequence); 
kvmsg set key (kvmsg, "HUGZ"); 
kvmsg set body (kvmsg, (byte *) "", 0); 
kvmsg send (kvmsg, self-»publisher); 
kvmsg destroy (&kvmsg); 


return 0; 


状态 改变 事件 处 理 函 数 
我 们 将 转变 为 master 
备 机 先 将 延迟 列表 中 的 事件 更 新 到 自己 的 快照 中 ， 


并 开始 接收 客户 端 发 来 的 快照 请 求 。 


static int 
s new master (zloop t *loop, void *unused, void *args) 


d 


// 
// 


clonesrv t *self = (clonesrv t *) args; 


self-»master = TRUE; 
self-»2slave = FALSE; 
zloop cancel (bstar zloop (self-»-bstar), self-»subscriber); 


// ”应 用 延迟 列表 中 的 事件 
while (zlist size (self->pending)) { 
kvmsg t *kvmsg = (kvmsg t *) zlist pop (self-»pending); 
kvmsg set sequence (kvmsg, --self-»sequence); 
kvmsg send (kvmsg, self-»publisher); 
kvmsg store (&kvmsg, self-»kvmap); 
zclock log ("I: 正在 发 布 延迟 列表 中 的 更 新 事件 : %d"， (int) self-»: 


return 0; 


正在 切换 为 slave 


static int 
s new slave (zloop t *loop, void *unused, void *args) 


( 


j 


// 
// 
// 


clonesrv t *self = (clonesrv t *) args; 


zhash destroy (&self-»-kvmap); 

self-»master = FALSE; 

self-»2slave = TRUE; 

zloop reader (bstar zloop (self-»bstar), self-»subscriber, 
s subscriber, self); 


return 0; 


从 同伴 主机 (master) 接收 更 新 事件 ; 
接收 该 类 更 新 事件 时 ， 我 们 一 定 是 slave 。 


static int 
s subscriber (zloop t *loop, void *subscriber, void *args) 


{ 


clonesrv_t *self = (clonesrv_t *) args; 
// 获取 快照 ， 如 果 需 要 的 话 。 


j 


B —————————————————————————————ne-——ÓÀ—— $5] 


if (self--kvmap == NULL) ( 
self-»-kvmap = zhash new (); 
void *snapshot = zsocket new (self-»ctx, ZMQ DEALER); 
zsocket connect (snapshot, "tcp://localhost:%d", self-»pee! 
zclock log ("I: 正在 请 求 快照 : tcp: //localhost:9*d", 
self-»peer); 
zstr send (snapshot, "ICANHAZ?"); 
while (TRUE) { 
kvmsg t *kvmsg - kvmsg recv (snapshot); 
if (!kvmsg) 
break; // 中断 
if (streq (kvmsg key (kvmsg), "KTHXBAI")) { 
self-»-sequence = kvmsg sequence (kvmsg); 
kvmsg. destroy (&kvmsg); 
break; // ”完成 


j 


kvmsg store (&kvmsg, self-»kvmap); 


} 
zclock log ("I: 收 到 快照 ， 版 本 号 :%d"， (int) self->sequence); 
zsocket destroy (self-»ctx, snapshot); 
} 
// 查找 并 删除 
kvmsg t *kvmsg = kvmsg recv (subscriber); 
if (!kvmsg) 
return 0; 


if (strneq (kvmsg key (kvmsg), "HUGZ")) { 
if (!s was pending (self, kvmsg)) { 
// ”如 果 master 的 更 新 事件 比 客户 端的 事件 早 到 ， 则 将 master 的 事件 存 
// ” 当 收 到 客户 端 更 新 事件 时 会 将 其 从 列表 中 清除 。 
zlist append (self->pending, kvmsg dup (kvmsg)); 


} 
// ”如 果 更 新 事件 比 kvmap 版 本 高 ， 则 应 用 它 
if (kvmsg sequence (kvmsg) > self->sequence) { 
self->sequence = kvmsg_sequence (kvmsg); 
kvmsg_store (&kvmsg, self->kvmap); 
zclock log ("I: 收 到 更 新 事件 : %d"， (int) self->sequence); 
} 
else 
kvmsg destroy (&kvmsg); 
} 
else 
kvmsg_destroy (&kvmsg); 


return 0; 





这 段 程序 只 有 几 百 行 ， 但 还 是 花 了 一 些 时 间 来 进行 调 通 的 。 这 个 模型 中 包含 了 故障 
恢复 ， 瞬 间 值 ， 子 树 等 等 。 虽 然 我 们 前 期 设计 得 很 完备 ， 但 要 在 多 个 套 接 字 之 间 进 
行 调试 还 是 很 困难 的 。 以 下 是 我 的 工作 方式 : 


e 由 于 使 用 了 反应 堆 〈bstar， 建 立 在 zloop 之 上 ) » &d1 3 4 T KERA > dE 
程序 变 得 简洁 明了 。 整 个 服务 以 一 个 线程 运行 ， 因 此 不 会 出 现 跨 线程 的 问题 。 
只 需 将 结构 指针 (self) 传递 给 所 有 的 处 理 器 即 可 。 此 外 ， 使 用 发 应 扒 后 可 以 
让 代码 更 为 模块 化 ， 易 于 重用 。 


e 我 们 逐个 模块 进行 调试 ， 只 有 某 个 模块 能 够 正常 运行 时 才 会 进入 下 一 步 。 由 于 
使 用 了 四 五 个 套 接 字 ， 因 此 调试 的 工作 量 是 很 大 的 。 我 直接 将 调试 信息 输出 到 
了 屏幕 上 ， 因 为 实在 没有 必要 专门 开 一 个 调试 器 来 工作 。 


e 因为 一 直 在 使 用 valgrind 工 具 进 行 测试 ， 因 此 我 能 确定 程序 没有 内 存 泄 漏 的 问 
题 。 在 C 语 言 中 ， 内 存 泄漏 是 我 们 非常 关心 的 问题 ， 因 为 没有 什么 垃圾 回收 机 
制 可 以 帮 你 完成 。 正 确 地 使 用 像 kvmsg、czmq 之 类 的 抽象 层 可 以 很 好 地 避免 内 
£m o 


这 上 段 程序 肯定 还 会 存在 一 些 BUG， 部 分 读者 可 能 会 帮助 我 调试 和 修复 ， 我 在 此 表示 


测试 模型 6 时 ， 先 开局 主机 和 备 机 ， 再 打开 一 组 客户 端 ， 顺 序 随意 。 随 机 地 中 止 东 
个 服务 进程 ， 如 果 程 序 设 计 得 是 正确 的 ， 那 客户 端 获 得 的 数据 应 该 都 是 一 致 的 。 


克隆 模式 协议 

花费 了 那么 多 精力 来 开发 一 套 可 靠 的 发 布 -订阅 模式 机 制 ， 我 们 当然 希望 将 来 能 够 方 
便 地 在 其 基础 之 上 进行 扩展 。 较 好 的 方法 是 将 其 编写 为 一 个 协议 ， 这 样 就 能 让 各 种 
语言 来 实现 它 了 。 

我 们 将 其 称 为 “集群 化 哈 希 表 协 议 ”， 这 是 一 个 能 够 跨 集 群 地 进行 键 值 哈 希 表 管理 ， 
提供 了 多 客户 端的 通信 机 制 ; 客户 端 可 以 只 操作 一 个 子 树 的 数据 ， 包 括 更 新 和 定义 
Bg Ja] fà. o 


e http://rfC.zeromq.org/spec: 12 


